作者: davi
日時: 2009/2/15(03:19)
藤岡和夫さん  <  こん??は でび です

毎々お気にかけて頂いて、ありがとうございます。

On Sun, 06 Jul 2008 14:17:28 +0900
藤岡和夫 <kazuf@...> wrote:

> 清と濁
> http://mumrik.air-nifty.com/blog/2008/07/06_freelysort.html
> 
> にて、下記スクリプトについてMaukie!さんのコメントが出た。

|ふと Ruby1.9.0 で実行してみるとエラーになって止まる。
|で、そのあたりからいろいろ見ているうちにわかってきた。
|濁音の処理は一切無視されている。

Unicode絡みで、濁音や半濁音は完成形ではなく、
合成字で処理しろよ、的な意地悪をされちゃいましたし、
文字の正規化とかも話題に出ているようですね…。

そんな色々な状況と、将来を考えて、今の時点で実装
しちゃって、後から取っ払うと大騒ぎになりそうな所は
現実的な処理の趨勢が状況判断できるようになるまで
触れない、ということなのかもしれませんね…。

>  しかし、辞書が完璧にならない場合に備えて、Yささん仕様にあわせて、辞書
> にない文字には、辞書サイズ+1の数値を与えることにした。

これ、tblにUnicode漢字の7万字分くらい入っても平気ですか?

その泥臭いtbl作成作業が、今年の夏休みの宿題になりそうな
予感なのですが…。

漢文データの索引作成を、もう3〜4年かけて校正作業を
進めています。
ところが、最後のsortingの所で、頭を抱えています。

コード順に並べただけだと、漢字がカタマリとして入って
いる場所がUnicodeでは、複数あるから、ちゃんと部首画数順
にならねぇ…。

でび  http://davi.txt-nifty.com/1984/