作者: davi
日時: 2007/10/18(02:43)
Bruce.さん  <  こん??は でび です

On Wed, 17 Oct 2007 17:38:49 +0900 (JST)
kbk@... (Bruce.) wrote:

> この本は大型書店なんかにいけば現物が拝めますか?

グランデや紀伊國屋程度でなくても、旭屋書店、有隣堂、
芳林堂レベルの規模なら大抵は置いてあると思います。

たいていは、雑誌コーナーの、思想雑誌のユリイカとかの近くに、
『月刊言語』『日本語学』『国文学 解釈と鑑賞』といった
感じで並んでいるはずです。

場合によっては、月刊カドカワとかの文芸雑誌の隣とか、
歴史読本の横とかの場合もあり。

『月刊 言語』の9月号には、データ処理の初歩技術紹介記事の
他にも、方言データから語形の類似する語を抽出し、共通語化に
至る系譜を作ってみるぞ、という趣旨で、レーベンシュタイン距離を
使った先行研究が既にあるけど、オレはピアソンの積率相関係数rを
使って単語間の類似度の距離を測り、クラスタ分析で共通語化に至る
樹形図を作ってみたぞ、というような記事もあります。

なんだか凄いです。

> ちとナニですけどねえ。この点Excelはラク。

> あとRは結構使い出があるんじゃないかと思います。

御意。あのグラフの楽ちんさは、強烈なアドバンテージだと
思います。
RはSPSSとかに慣れた心理屋さんとかは使っているみたいですが、
私には理解不能でした。

> 別にそのような意図はありませんし、本家のアップデートもゆったり

ありがとうございます。安心しました。

> agrepのアルゴリズムは前に一度調べたことがありますが、あれって
> 日本語にそのまま適用できましたっけ?

私が調べた時の記憶では、アルゴリズムをコピーレフト化して
いないような印象でした。それで、GNU TOOLSに入っておらず、
その結果、マルチバイト化されたものも配布されていないという
のではないかな、という風に理解していました。

私の希望は、ZF(http://www.vector.co.jp/soft/dos/util/se000905.html)
の、/iオプション(一文字違い検索)の機能をエミュレートしたいって
ことなんですが、ZFはSJISのみ対応で、Unicodeファイルは処理できず、
困ったぞ、と。

あ、もしかして、これを解決するのがレーベンシュタイン距離なのかな?

でび  http://homepage1.nifty.com/davi/