藤岡和夫さん Zazelさん みなさん < こん??は でび です
On Sun, 29 Jun 2008 12:38:35 +0900
藤岡和夫 <kazuf@...> wrote:
> この部分は、過去の資産の問題もあるので、OKというわけにはいかないですね。
個人的には、データそのものをUTF-8に変換しちゃえばいいじゃん、
と思っています。
いまだに「EUCの固定長データこそ至上の持ち方!」みたいな
昔からのメインフレーム屋(で、顧客用のWebサーバを単なる
フロントエンドと見下しているような人々)には、そろそろ
意識改革しても良いんじゃないっすか?、と。
銀行の預金システムとかで、異体字がJIS範囲では表示でき
ないから未だにカタカナなのって、おかしいじゃん、と。
せめてUnicode範囲の文字までなら異体字表示可能ですよ、
まではやっておくべきだよね、と。
> これは、私も日本語をソートしていつも思うのですが、コード順にソートして
> 何の意味があるのかなということです。何か発音順のあいうえお順のようにも思
> えるのですが・・・
JISの第1水準は漢字のヨミの五十音順、第2水準は部首・画数順で定義されています。
これを全部、部首・画数順でSortするためのプログラムを、パソ通時代の太古、
益山健(massangeana)さんが公開していたような気がします。
> 少なくとも、日本人だから、日本語のソートについてはこうあるべきという考
> え方があってもよいと思います。それさえあれば、日本語文字列ソートプロジェ
> クトみたいなものはできるかもしれない。それを拡げて、世界言語文字列ソート
> プロジェクトに発展させることも可能かと(^^)
Zazelさんの仰るように、色んな価値観があるから、難しいかと。
ただ、「Unicodeのデータについて、自分で並べ順を指定するための
テーブルさえ用意すれば、思い通りの価値観の順でSortできますよ」
という(場当たり的に個人のニーズでスクリプト言語で書くのではなく、
Cで書かれていて高速に動く)プログラムの枠組みは是非とも必要だろう
と思うのですよね。
で、GnuのツールAspellみたいに、有志がテーブルを作って公開すれば
良いんじゃないかな、と。
でも、Unicode Consortiumでは、そういうフレームワーク部分に
該当するようなソフトを公開していないようです。
gnuwin 32とかでも無いみたい。
欧文言語圏の人も、単語の格変化や複数形などによる変化形が
あるとSortしたりCountするときに困る、ってことは
コーパス言語学ではlemma化が必要なんだから、当然、理解して
いるはずだとは思うんですけど、lemma化ツールを探してみると、
日本人が作ったPerlスクリプトに行き当たりました。
(http://www.eng.ritsumei.ac.jp/asao/resources/lemma/)
私の探し方が悪かったのか、元々欧米人自身にはそういうニーズが
ないのか…。
存在して然るべき(と思われるような)プログラムが、スコーンと
抜けて存在していない、ってのに出くわすと、「欲しいと思うのは
自分だけではなかろうに…」と「そんなに特殊な希望なの?これ?」
との狭間で、不思議な感じがします。
でび http://davi.txt-nifty.com/1984/