TSabc 発言

作者: davi
日時: 2008/6/29(15:39)

藤岡和夫さん Zazelさん みなさん  ＜  こん？？は でび です

On Sun, 29 Jun 2008 12:38:35 +0900
藤岡和夫 <kazuf@...> wrote:

> 　この部分は、過去の資産の問題もあるので、OKというわけにはいかないですね。

個人的には、データそのものをUTF-8に変換しちゃえばいいじゃん、
と思っています。

いまだに「EUCの固定長データこそ至上の持ち方！」みたいな
昔からのメインフレーム屋（で、顧客用のWebサーバを単なる
フロントエンドと見下しているような人々）には、そろそろ
意識改革しても良いんじゃないっすか？、と。

銀行の預金システムとかで、異体字がJIS範囲では表示でき
ないから未だにカタカナなのって、おかしいじゃん、と。
せめてUnicode範囲の文字までなら異体字表示可能ですよ、
まではやっておくべきだよね、と。

> 　これは、私も日本語をソートしていつも思うのですが、コード順にソートして
> 何の意味があるのかなということです。何か発音順のあいうえお順のようにも思
> えるのですが・・・

JISの第1水準は漢字のヨミの五十音順、第2水準は部首・画数順で定義されています。
これを全部、部首・画数順でSortするためのプログラムを、パソ通時代の太古、
益山健（massangeana）さんが公開していたような気がします。

> 　少なくとも、日本人だから、日本語のソートについてはこうあるべきという考
> え方があってもよいと思います。それさえあれば、日本語文字列ソートプロジェ
> クトみたいなものはできるかもしれない。それを拡げて、世界言語文字列ソート
> プロジェクトに発展させることも可能かと(^^)

Zazelさんの仰るように、色んな価値観があるから、難しいかと。

ただ、「Unicodeのデータについて、自分で並べ順を指定するための
テーブルさえ用意すれば、思い通りの価値観の順でSortできますよ」
という（場当たり的に個人のニーズでスクリプト言語で書くのではなく、
Cで書かれていて高速に動く）プログラムの枠組みは是非とも必要だろう
と思うのですよね。

で、GnuのツールAspellみたいに、有志がテーブルを作って公開すれば
良いんじゃないかな、と。

でも、Unicode Consortiumでは、そういうフレームワーク部分に
該当するようなソフトを公開していないようです。
gnuwin 32とかでも無いみたい。

欧文言語圏の人も、単語の格変化や複数形などによる変化形が
あるとSortしたりCountするときに困る、ってことは
コーパス言語学ではlemma化が必要なんだから、当然、理解して
いるはずだとは思うんですけど、lemma化ツールを探してみると、
日本人が作ったPerlスクリプトに行き当たりました。
（http://www.eng.ritsumei.ac.jp/asao/resources/lemma/）

私の探し方が悪かったのか、元々欧米人自身にはそういうニーズが
ないのか…。

存在して然るべき（と思われるような）プログラムが、スコーンと
抜けて存在していない、ってのに出くわすと、「欲しいと思うのは
自分だけではなかろうに…」と「そんなに特殊な希望なの？これ？」
との狭間で、不思議な感じがします。


でび  http://davi.txt-nifty.com/1984/

前の発言:

554. セマンティック・ソーティング・プロジェクト(Re: Re:世界言語文字列ソートプロジェクト) [藤岡和夫] 2008/6/29(15:11)
後の発言:

556. Re: 世界言語文字列ソートプロジェクト [藤岡和夫] 2008/6/29(16:50)
親発言:

552. 世界言語文字列ソートプロジェクト(Re: Re: UTF-8フラグの立て方・降ろし方) [藤岡和夫] 2008/6/29(12:38)
子発言:

556. Re: 世界言語文字列ソートプロジェクト [藤岡和夫] 2008/6/29(16:50)
　　　　

562. Re: 世界言語文字列ソートプロジェクト(Re: Re: UTF-8 フラグの立て方・降ろし方) [Bruce.] 2008/6/29(23:48)