TSfree 発言

作者: 閑舎
日時: 2002/8/30(10:04)

dune <FZH01112@...> さん wrote.

> というかんじでした。僕自身は http://osaka.cool.ne.jp/parasa/
> の pgrep というのを愛用してますが、これで同じことをさせると 
> 13 秒なので速さでは txtsearch ですね。不安を感じるくらいの速
> さ。Google のキャッシュみたく検索した語に色がつくとカッコいい
> かも。
> ...
> すみません、ここは逆でした。"OLE" と "-w" を and 検索してんのかな。
> perl txtsearch -w OLE >hoge.html が正解で、結果は 79KB のファイル
> になって 37 秒で終わります。

言い忘れていたので追加します。pgrep は使ってないのでウソを言っているかも
ですが、通常の grep だと多数の文字コードに対応していない、特に Unicode 
には対応していないでしょう。従って、html などは SJIS, EUC, JIS, Unicode 
が混ざっていると考えられるので、pgrep だと 1 度の検索では、その 1 部しか
抽出できないと思います。この辺が txtsearch の時間がかかる 1 つの原因です
が、セールスポイントでもあります。

--
本田博通（閑舎）
テキストとスクリプトの http://rakunet.org/TSNET/

前の発言:

305. Re: grep, sed, gawk のmulti-byte 版の現状は？ [Zazel] 2002/8/30(05:43)
後の発言:

307. Re: txtsearch Ver.0.5アップロード [閑舎] 2002/8/30(10:16)
親発言:

298. Re: txtsearch Ver.0.5アップロード [dune] 2002/8/30(01:33)
子発言:

311. Re: txtsearchVer.0.5アップロード [dune] 2002/8/30(21:58)