作者: 閑舎
日時: 2002/8/30(10:04)
dune <FZH01112@...> さん wrote.

> というかんじでした。僕自身は http://osaka.cool.ne.jp/parasa/
> の pgrep というのを愛用してますが、これで同じことをさせると 
> 13 秒なので速さでは txtsearch ですね。不安を感じるくらいの速
> さ。Google のキャッシュみたく検索した語に色がつくとカッコいい
> かも。
> ...
> すみません、ここは逆でした。"OLE" と "-w" を and 検索してんのかな。
> perl txtsearch -w OLE >hoge.html が正解で、結果は 79KB のファイル
> になって 37 秒で終わります。

言い忘れていたので追加します。pgrep は使ってないのでウソを言っているかも
ですが、通常の grep だと多数の文字コードに対応していない、特に Unicode 
には対応していないでしょう。従って、html などは SJIS, EUC, JIS, Unicode 
が混ざっていると考えられるので、pgrep だと 1 度の検索では、その 1 部しか
抽出できないと思います。この辺が txtsearch の時間がかかる 1 つの原因です
が、セールスポイントでもあります。

--
本田博通(閑舎)
テキストとスクリプトの http://rakunet.org/TSNET/