作者: 閑舎
日時: 2002/8/30(02:16)
dune <FZH01112@...> さん wrote.

> >D:%timer "perl txtindex"
> >37.750000 sec
> >D:%timer "perl txtsearch OLE -w >hoge.html"
> >3.140000 sec
> >D:%
> 
> というかんじでした。僕自身は http://osaka.cool.ne.jp/parasa/
> の pgrep というのを愛用してますが、これで同じことをさせると 
> 13 秒なので速さでは txtsearch ですね。不安を感じるくらいの速
> さ。Google のキャッシュみたく検索した語に色がつくとカッコいい
> かも。
> #速さと言えば mg.pl も爆速だったなぁ。

ご試用ありがとうございました。確かに

  perl txtsearch -w OLE >hoge.html

が正しいですが、結果が大量の場合時間がかかります。

  perl txtsearch OLE > hoge.euc

とすると、もう少し速いでしょう。基本的に少量の結果となるよう、キーワード
を複数にして検索すると思うので、例えば、閑舎 と [Pp]erl と フリーウェア 
という 3 語の AND 検索の場合、第一語を頻度が小さいものにするのがこつです。

$ time txtsearch '閑舎' 'フリーウェア' '[Pp]erl' > /dev/null
real	0m2.780s
user	0m2.630s
sys	0m0.150s

$ time txtsearch '[Pp]erl' '閑舎' 'フリーウェア' > /dev/null
real	0m5.290s
user	0m5.060s
sys	0m0.230s

-i オプションとかは基本的に上ので代用できるので、まだ取り入れていない……。

> これの pdf 対応を作っていただけるとすごく助かります。ほとんど
> 仕事に使わない、家の PC でさえ pdf のデータシートが 2.5GB あ
> るので…

pdf は全て TeX などにまかせているからなあ……どこかに Perl のモジュール
でもころがっていればやりますが……。

--
本田博通(閑舎)
テキストとスクリプトの http://rakunet.org/TSNET/