TSfree 発言

作者: davi
日時: 2010/7/05(08:47)

みずはのぶおさん  ＜  こん？？は でび です

On Sun,  4 Jul 2010 12:52:57 +0900 (JST)
laoshu_1960@... (みずはのぶお) wrote:

> これまで作成してきたデータがかなりのファイル形式、そして量になって
>きたので、以前はcgrepやygrepでやってきたフォルダ内の一括検索を、
>別のソフトでなんとかできないかと、いろいろ調べました。

私はHyper EstraierのWINDOWSバイナリパッケージをエンジンとし、
DesktopHEをGUIのUIとして使わせて頂いています。

http://freemind.s57.xrea.com/desktophe/index.html
http://hyperestraier.sourceforge.net/

最初のインデックス作成処理が重く、インデックス更新もつい
億劫になりますが、N-GRAM方式なので検索漏れは出ないことに
なっているので安心です。

word文書、pdfファイル、excel文書、utf-8とShift JISの
テキストファイルなどは、だいたいOKのようです。

htmlに関してはBIG5やGBのままで、Unicodeファイルにエンコード
を変換されていなくても（どうもHTML中のエンコード宣言で切り
替えできているらしく、）OKのようです。

→charset=gb2312"宣言があるものは、GBのままでもヒットしました。
添付画像を付けたらMLにファイルサイズ制限でハネられたので
blogにサンプルを載せました。

"DesktopHE.png"は簡体字中国語で「読書」をキーワードに
してヒットした結果です。
http://davi.txt-nifty.com/1984/2010/07/hyper-estraierd.html
ご参照下さい。

（Unicodeファイルに置換されていない）BIG5やGBのプレーン
テキストについてはダメみたい。
でも、あんまりミッチリ使いこなしているわけでもないので、
インデックス作成オプションをいじればできるのかもしれません。

一太郎ファイルなどについてもインデックス化したりするには、
インデックス作成時のオプション設定をねちっこくやるのが
ポイントのようです。

Wordも最近は.docの他に.docxとかもありますしね…。

---------------

>namazu for win32は、日本語以外のたとえば中国語のデータの検索はできないと
>考えている僕の理解は正しいのか否か。

VerUPもここのところないようだし、ネット上で散見される
従前の議論を踏まえるとNKFで日本語以外の文字は切り落と
してしまうようだから、それでFAなのだろうと私自身は
考えていましたが…。

でび  http://davi.txt-nifty.com/1984/

前の発言:

2677. Re: 全文検索について [MIZUHA Nobuo] 2010/7/05(00:31)
後の発言:

2679. Re: 全文検索について [藤岡和夫] 2010/7/05(20:50)
親発言:

2675. 全文検索について [みずはのぶお] 2010/7/4(12:52)
子発言:

2679. Re: 全文検索について [藤岡和夫] 2010/7/05(20:50)