作者: davi
日時: 2008/6/29(15:39)
藤岡和夫さん Zazelさん みなさん  <  こん??は でび です

On Sun, 29 Jun 2008 12:38:35 +0900
藤岡和夫 <kazuf@...> wrote:

>  この部分は、過去の資産の問題もあるので、OKというわけにはいかないですね。

個人的には、データそのものをUTF-8に変換しちゃえばいいじゃん、
と思っています。

いまだに「EUCの固定長データこそ至上の持ち方!」みたいな
昔からのメインフレーム屋(で、顧客用のWebサーバを単なる
フロントエンドと見下しているような人々)には、そろそろ
意識改革しても良いんじゃないっすか?、と。

銀行の預金システムとかで、異体字がJIS範囲では表示でき
ないから未だにカタカナなのって、おかしいじゃん、と。
せめてUnicode範囲の文字までなら異体字表示可能ですよ、
まではやっておくべきだよね、と。

>  これは、私も日本語をソートしていつも思うのですが、コード順にソートして
> 何の意味があるのかなということです。何か発音順のあいうえお順のようにも思
> えるのですが・・・

JISの第1水準は漢字のヨミの五十音順、第2水準は部首・画数順で定義されています。
これを全部、部首・画数順でSortするためのプログラムを、パソ通時代の太古、
益山健(massangeana)さんが公開していたような気がします。

>  少なくとも、日本人だから、日本語のソートについてはこうあるべきという考
> え方があってもよいと思います。それさえあれば、日本語文字列ソートプロジェ
> クトみたいなものはできるかもしれない。それを拡げて、世界言語文字列ソート
> プロジェクトに発展させることも可能かと(^^)

Zazelさんの仰るように、色んな価値観があるから、難しいかと。

ただ、「Unicodeのデータについて、自分で並べ順を指定するための
テーブルさえ用意すれば、思い通りの価値観の順でSortできますよ」
という(場当たり的に個人のニーズでスクリプト言語で書くのではなく、
Cで書かれていて高速に動く)プログラムの枠組みは是非とも必要だろう
と思うのですよね。

で、GnuのツールAspellみたいに、有志がテーブルを作って公開すれば
良いんじゃないかな、と。

でも、Unicode Consortiumでは、そういうフレームワーク部分に
該当するようなソフトを公開していないようです。
gnuwin 32とかでも無いみたい。

欧文言語圏の人も、単語の格変化や複数形などによる変化形が
あるとSortしたりCountするときに困る、ってことは
コーパス言語学ではlemma化が必要なんだから、当然、理解して
いるはずだとは思うんですけど、lemma化ツールを探してみると、
日本人が作ったPerlスクリプトに行き当たりました。
(http://www.eng.ritsumei.ac.jp/asao/resources/lemma/)

私の探し方が悪かったのか、元々欧米人自身にはそういうニーズが
ないのか…。

存在して然るべき(と思われるような)プログラムが、スコーンと
抜けて存在していない、ってのに出くわすと、「欲しいと思うのは
自分だけではなかろうに…」と「そんなに特殊な希望なの?これ?」
との狭間で、不思議な感じがします。


でび  http://davi.txt-nifty.com/1984/