作者: 藤岡和夫
日時: 2008/6/29(16:50)
On Sun, 29 Jun 2008 15:39:25 +0900
"davi" <davi-1984@...> さんwrote:

> >  この部分は、過去の資産の問題もあるので、OKというわけにはいかないですね。
> 
> 個人的には、データそのものをUTF-8に変換しちゃえばいいじゃん、
> と思っています。

 もう一つの理由は、Windowsの文字コードがいまだにSJISということがありま
すね。僕の場合はどちらでも自在に扱える方が便利だという気持ちの方が強い。
実際、全部手持ちのデータをUTF-8に変換しないと使えないというのでは面倒だ
と思うから。まあ、UTF-8が扱えれば、でびさんの基準は満たすわけでOKでしょ
う。僕はそれだけでは不満足というだけのこと。環境がUTF-8に対応できていな
い。

> いまだに「EUCの固定長データこそ至上の持ち方!」みたいな
> 昔からのメインフレーム屋(で、顧客用のWebサーバを単なる
> フロントエンドと見下しているような人々)には、そろそろ
> 意識改革しても良いんじゃないっすか?、と。
> 
> 銀行の預金システムとかで、異体字がJIS範囲では表示でき
> ないから未だにカタカナなのって、おかしいじゃん、と。
> せめてUnicode範囲の文字までなら異体字表示可能ですよ、
> まではやっておくべきだよね、と。

 ぼくはその領域の話はよく知らないですけど、自分の知っている範囲、自分の
できる範囲で考えるのが人間の習性ということはありますね。

> >  これは、私も日本語をソートしていつも思うのですが、コード順にソートして
> > 何の意味があるのかなということです。何か発音順のあいうえお順のようにも思
> > えるのですが・・・
> 
> JISの第1水準は漢字のヨミの五十音順、第2水準は部首・画数順で定義されています。
> これを全部、部首・画数順でSortするためのプログラムを、パソ通時代の太古、
> 益山健(massangeana)さんが公開していたような気がします。

 なるほど、読みの順のような気がしたり、一貫性もないような気もしていまし
たから、JIS第1水準と第2水準の違いですか。

 ただ、漢字は、文字コード順にソートしてもあまり意味がないのではと思いま
すね。並びを漢字の状態で見て意味が分からないのです。並んでいるという感じ
がしない。前の記事に書いたPukiwikiのページ一覧のソート結果を見ての感想で
すけどね。まあ、類似した文字列は近くに並びますが。

 辞書順というのはすなわち読みの順ですね。文字コード順のソートでそれが実
現できないなら、まずは標準としてこれを実現することを目的とするかな。そう
すればアルファベットと同様に「かな」順に表示できる。

> >  少なくとも、日本人だから、日本語のソートについてはこうあるべきという考
> > え方があってもよいと思います。それさえあれば、日本語文字列ソートプロジェ
> > クトみたいなものはできるかもしれない。それを拡げて、世界言語文字列ソート
> > プロジェクトに発展させることも可能かと(^^)
> 
> Zazelさんの仰るように、色んな価値観があるから、難しいかと。
> 
> ただ、「Unicodeのデータについて、自分で並べ順を指定するための
> テーブルさえ用意すれば、思い通りの価値観の順でSortできますよ」
> という(場当たり的に個人のニーズでスクリプト言語で書くのではなく、
> Cで書かれていて高速に動く)プログラムの枠組みは是非とも必要だろう
> と思うのですよね。

 Perlのままでも実用的には十分だと思います。昔のCよりは今のPerlのほうが
速い^^;)リアルタイムは難しいだろうけどね。

> で、GnuのツールAspellみたいに、有志がテーブルを作って公開すれば
> 良いんじゃないかな、と。

 そうですね。

> でも、Unicode Consortiumでは、そういうフレームワーク部分に
> 該当するようなソフトを公開していないようです。
> gnuwin 32とかでも無いみたい。
> 
> 欧文言語圏の人も、単語の格変化や複数形などによる変化形が
> あるとSortしたりCountするときに困る、ってことは
> コーパス言語学ではlemma化が必要なんだから、当然、理解して
> いるはずだとは思うんですけど、lemma化ツールを探してみると、
> 日本人が作ったPerlスクリプトに行き当たりました。
> (http://www.eng.ritsumei.ac.jp/asao/resources/lemma/)
> 
> 私の探し方が悪かったのか、元々欧米人自身にはそういうニーズが
> ないのか…。
> 
> 存在して然るべき(と思われるような)プログラムが、スコーンと
> 抜けて存在していない、ってのに出くわすと、「欲しいと思うのは
> 自分だけではなかろうに…」と「そんなに特殊な希望なの?これ?」
> との狭間で、不思議な感じがします。

Lemmatisation - http://en.wikipedia.org/wiki/Lemmatisation

にある Collatinus がその一つだと思いますね。Lemmaという用語自体があるわ
けだから、ないわけがない^^;)

 それに機能は単純だから自作も多いでしょう。

藤岡 和夫
kazuf@...
日曜プログラマのひとりごと http://homepage1.nifty.com/kazuf/renewal.html