作者: davi
日時: 2009/2/16(05:51)
藤岡和夫さん  <  こん??は でび です

On Sun, 15 Feb 2009 19:18:57 +0900
藤岡和夫 <kazuf@...> wrote:

>  7万字×5バイトとして、高々350KBのデータですから、それが処理できなくて
> どうするということでしょう。

うへぇ。
富豪プログラミングって便利だなあ。

>  それよりも、7万字を部首画数順に並べる方が大変なような・・・、既にそう
> いうデータが存在しているなら、簡単に試せますよね。

Unicode Consortiumが、漢字をぶちこんである「領域毎」に、そういうのを
作っているのはPDFで公開されていたのを見かけましたが、私の調べた
限りでは、それらの「領域の壁を超えて漢字を部首画数順に統合したテーブル」
は、見たことがありません。

メインフレーム時代から公共事業部門を持っているような大企業では、
自社内用データとして保有しているのかもしれませんけど。

ということで、自分で作る必要がありそうです。
泥臭い作業が夏休みの宿題になりそうな予感で、うんざりしています。

Unicodeの基本領域の文字を全部出力し、Sortすれば部首画数順に
並びます。
で、その中にはたとえば、「寛」が入っている。
その近くに、点が付いている「&#x05BEC;」とか簡体字の
「&#x05BBD;」とかを一定の法則性を持たせて並べる。

一対多の異体字関係が存在する場合、この「一定の法則性」って
のをどのように設計するか?に、哲学的要素が絡みそうで、
クセモノっぽいんですけど。

>  もちろんソートする文字列の数がどれくらいあるかは知りませんけど。

私の手元のデータでは、処理対象の文章ファイルはせいぜい
数万行のオーダーのはずです。
少なくとも100万までは、届かないだろうとみています。

テーブルが7万字入れ込めるなら、適用対象データが数万行
のオーダーであれば、メモリ4GB積んでいれば、どうにか
なりそうですね。

でび  http://davi.txt-nifty.com/1984/