作者: davi
日時: 2010/7/05(08:47)
みずはのぶおさん  <  こん??は でび です

On Sun,  4 Jul 2010 12:52:57 +0900 (JST)
laoshu_1960@... (みずはのぶお) wrote:

> これまで作成してきたデータがかなりのファイル形式、そして量になって
>きたので、以前はcgrepやygrepでやってきたフォルダ内の一括検索を、
>別のソフトでなんとかできないかと、いろいろ調べました。

私はHyper EstraierのWINDOWSバイナリパッケージをエンジンとし、
DesktopHEをGUIのUIとして使わせて頂いています。

http://freemind.s57.xrea.com/desktophe/index.html
http://hyperestraier.sourceforge.net/

最初のインデックス作成処理が重く、インデックス更新もつい
億劫になりますが、N-GRAM方式なので検索漏れは出ないことに
なっているので安心です。

word文書、pdfファイル、excel文書、utf-8とShift JISの
テキストファイルなどは、だいたいOKのようです。

htmlに関してはBIG5やGBのままで、Unicodeファイルにエンコード
を変換されていなくても(どうもHTML中のエンコード宣言で切り
替えできているらしく、)OKのようです。

→charset=gb2312"宣言があるものは、GBのままでもヒットしました。
添付画像を付けたらMLにファイルサイズ制限でハネられたので
blogにサンプルを載せました。

"DesktopHE.png"は簡体字中国語で「読書」をキーワードに
してヒットした結果です。
http://davi.txt-nifty.com/1984/2010/07/hyper-estraierd.html
ご参照下さい。

(Unicodeファイルに置換されていない)BIG5やGBのプレーン
テキストについてはダメみたい。
でも、あんまりミッチリ使いこなしているわけでもないので、
インデックス作成オプションをいじればできるのかもしれません。

一太郎ファイルなどについてもインデックス化したりするには、
インデックス作成時のオプション設定をねちっこくやるのが
ポイントのようです。

Wordも最近は.docの他に.docxとかもありますしね…。

---------------

>namazu for win32は、日本語以外のたとえば中国語のデータの検索はできないと
>考えている僕の理解は正しいのか否か。

VerUPもここのところないようだし、ネット上で散見される
従前の議論を踏まえるとNKFで日本語以外の文字は切り落と
してしまうようだから、それでFAなのだろうと私自身は
考えていましたが…。

でび  http://davi.txt-nifty.com/1984/