作者: 藤岡和夫
日時: 2007/10/21(11:44)
On Sun, 21 Oct 2007 09:57:13 +0900
藤岡和夫 <kazuf@...> wrote:

> modifierとはthe amount of approximateness(近似量)の意味で、単に文字数と
> いうことではないようです。%も使えるようなので検討されるとよいと思います。

 Stirng:Approxのドキュメントによると近似度の測定の原理は次のようなもの
ですね。

The measure of approximateness is the Levenshtein edit distance. It is
the total number of "edits": insertions,

        word world

deletions,

        monkey money

and substitutions

        sun fun

required to transform a string to another string. For example, to
transform "lead" into "gold", you need three edits:

        lead gead goad gold

The edit distance of "lead" and "gold" is therefore three, or 75%.

 従って、下記の結果は文字単位の近似度では測られていない。おそらくbyte単
位での近似度になっているのでしょう。

> modifier: ['2']の場合
> ---------------------
> [c:\sites\tsnetwork]
> perl agreptest.pl agreptest.txt
> 21: # usage: gawk -f agrep.awk 2 ハンカチ王子 agrep.txt
> 41: ハニカミ王子
> 43: ハナカミ王子
> 46: ハダカノ王子
> 48: トンカツ王子
> 
> modifier: ['3']の場合
> ---------------------
> [c:\sites\tsnetwork]
> perl agreptest.pl agreptest.txt
> 21: # usage: gawk -f agrep.awk 2 ハンカチ王子 agrep.txt
> 41: ハニカミ王子
> 43: ハナカミ王子
> 46: ハダカノ王子
> 47: ハルカゼ王子
> 48: トンカツ王子
> 
> modifier: ['4']の場合
> ---------------------
> [c:\sites\tsnetwork]
> perl agreptest.pl agreptest.txt
> 21: # usage: gawk -f agrep.awk 2 ハンカチ王子 agrep.txt
> 41: ハニカミ王子
> 42: ハゲカケ王子
> 43: ハナカミ王子
> 44: ハミガキ王子
> 45: ハイカイ王子
> 46: ハダカノ王子
> 47: ハルカゼ王子
> 48: トンカツ王子
> 
> modifier: ['5']の場合
> ---------------------
> [c:\sites\tsnetwork]
> perl agreptest.pl agreptest.txt
> 21: # usage: gawk -f agrep.awk 2 ハンカチ王子 agrep.txt
> 41: ハニカミ王子
> 42: ハゲカケ王子
> 43: ハナカミ王子
> 44: ハミガキ王子
> 45: ハイカイ王子
> 46: ハダカノ王子
> 47: ハルカゼ王子
> 48: トンカツ王子
> 53: とをすれば可能でしょうね。まず/..カチ王子/,/.ン.チ王子/,...みたいなパター

藤岡 和夫
kazuf@...
日曜プログラマのひとりごと http://homepage1.nifty.com/kazuf/renewal.html