みずはのぶおさん < こん??は でび です
On Sun, 4 Jul 2010 12:52:57 +0900 (JST)
laoshu_1960@... (みずはのぶお) wrote:
> これまで作成してきたデータがかなりのファイル形式、そして量になって
>きたので、以前はcgrepやygrepでやってきたフォルダ内の一括検索を、
>別のソフトでなんとかできないかと、いろいろ調べました。
私はHyper EstraierのWINDOWSバイナリパッケージをエンジンとし、
DesktopHEをGUIのUIとして使わせて頂いています。
http://freemind.s57.xrea.com/desktophe/index.html
http://hyperestraier.sourceforge.net/
最初のインデックス作成処理が重く、インデックス更新もつい
億劫になりますが、N-GRAM方式なので検索漏れは出ないことに
なっているので安心です。
word文書、pdfファイル、excel文書、utf-8とShift JISの
テキストファイルなどは、だいたいOKのようです。
htmlに関してはBIG5やGBのままで、Unicodeファイルにエンコード
を変換されていなくても(どうもHTML中のエンコード宣言で切り
替えできているらしく、)OKのようです。
→charset=gb2312"宣言があるものは、GBのままでもヒットしました。
添付画像を付けたらMLにファイルサイズ制限でハネられたので
blogにサンプルを載せました。
"DesktopHE.png"は簡体字中国語で「読書」をキーワードに
してヒットした結果です。
http://davi.txt-nifty.com/1984/2010/07/hyper-estraierd.html
ご参照下さい。
(Unicodeファイルに置換されていない)BIG5やGBのプレーン
テキストについてはダメみたい。
でも、あんまりミッチリ使いこなしているわけでもないので、
インデックス作成オプションをいじればできるのかもしれません。
一太郎ファイルなどについてもインデックス化したりするには、
インデックス作成時のオプション設定をねちっこくやるのが
ポイントのようです。
Wordも最近は.docの他に.docxとかもありますしね…。
---------------
>namazu for win32は、日本語以外のたとえば中国語のデータの検索はできないと
>考えている僕の理解は正しいのか否か。
VerUPもここのところないようだし、ネット上で散見される
従前の議論を踏まえるとNKFで日本語以外の文字は切り落と
してしまうようだから、それでFAなのだろうと私自身は
考えていましたが…。
でび http://davi.txt-nifty.com/1984/