藤岡和夫さん < こん??は でび です
On Sun, 15 Feb 2009 19:18:57 +0900
藤岡和夫 <kazuf@...> wrote:
> 7万字×5バイトとして、高々350KBのデータですから、それが処理できなくて
> どうするということでしょう。
うへぇ。
富豪プログラミングって便利だなあ。
> それよりも、7万字を部首画数順に並べる方が大変なような・・・、既にそう
> いうデータが存在しているなら、簡単に試せますよね。
Unicode Consortiumが、漢字をぶちこんである「領域毎」に、そういうのを
作っているのはPDFで公開されていたのを見かけましたが、私の調べた
限りでは、それらの「領域の壁を超えて漢字を部首画数順に統合したテーブル」
は、見たことがありません。
メインフレーム時代から公共事業部門を持っているような大企業では、
自社内用データとして保有しているのかもしれませんけど。
ということで、自分で作る必要がありそうです。
泥臭い作業が夏休みの宿題になりそうな予感で、うんざりしています。
Unicodeの基本領域の文字を全部出力し、Sortすれば部首画数順に
並びます。
で、その中にはたとえば、「寛」が入っている。
その近くに、点が付いている「寬」とか簡体字の
「宽」とかを一定の法則性を持たせて並べる。
一対多の異体字関係が存在する場合、この「一定の法則性」って
のをどのように設計するか?に、哲学的要素が絡みそうで、
クセモノっぽいんですけど。
> もちろんソートする文字列の数がどれくらいあるかは知りませんけど。
私の手元のデータでは、処理対象の文章ファイルはせいぜい
数万行のオーダーのはずです。
少なくとも100万までは、届かないだろうとみています。
テーブルが7万字入れ込めるなら、適用対象データが数万行
のオーダーであれば、メモリ4GB積んでいれば、どうにか
なりそうですね。
でび http://davi.txt-nifty.com/1984/