作者: 藤岡和夫
日時: 2010/7/04(22:03)
藤岡です。実際に使われている方がコメントされるのがよいと思いますが。

僕の持っている二冊の本は、ほぼ10年前の本ですし。以下も最近の情報とは言え
ないかもしれないですね。ただ、namazuのメーリングリストも静かなようですし。

完全なUTF-8化はNamazu 3で実現されるのではと思います。今はUTF-8を取り扱え
るレベル。じゃないでしょうか。

On Sun,  4 Jul 2010 12:52:57 +0900 (JST)
laoshu_1960@... (みずはのぶお) さんwrote:

> A)namazu for win32は、日本語以外のたとえば中国語のデータの検索はでき
> ないと考えている僕の理解は正しいのか否か。

中国語、韓国語を扱う?
http://www.namazu.org/ml/namazu-users-ja/msg01661.html

[Namazu-users-ja 55] 中国語の文書を検索
http://www.namazu.org/pipermail/namazu-users-ja/2004-September/000054.html

のスレッドが参考になると思います。

 言語によって、文字コード、単語の切り出し(形態素解析)の問題がありますね。

 韓国語はともかく中国語は簡単にはいかないでしょう。解析用の辞書が必要。

> B)さまざまなファイルの全文検索をみなさんはどのような方法でなさっているのか。

 GETAを試したことはありますが、本格的に使うには至っていません。個人で生
み出す程度のテキストデータはGrep(Perlスクリプト)で間に合いますから。

汎用連想計算エンジン GETA
http://geta.ex.nii.ac.jp/geta.html

GETAによるファイル全文検索
http://pitecan.com/GETA/

藤岡 和夫
kazuf@...
日曜プログラマのひとりごと http://homepage1.nifty.com/kazuf/renewal.html