作者: dune
日時: 2003/5/15(07:46)
なむ野本 さんの [TSperl:262] Re: 文字表のファイル保存 から
> 「ひょっとして、このマシンは違う文字を保有してるか?」という
> 猜疑心を消去するために、まれに必要を感じます。
> DOSで「何とか」と書くと(忘れました)出力してくれてたような
> スクリプトが欲しいのですが。
> そのマシンの、jis外漢字の表が通常と異なっていないか、確認する
> 方法は無いのでしょうか。通常はそんな必要は全くないのですけど。

僕の知らない方面の話のような。例えば PC-980? 独自の漢字とか、
外字の登録状況がわかるスクリプトってことでしょうか。
Windows なら選んだフォントによって表示できたりできなかったり、
違う文字が表示されたりすることはあります。文字コードの一覧を
出力しても、各コードにどんな形の文字が割り当てられてるか、割
り当てられてないか、までは perl では判断できないと思います。
 


> 3月25日にmorogram の師さんに、京大の学会で会いました。
> 極悪gramの方が類似比率が出せる、と云わずに、提出された
> 資料では全く類似比率が判定できないといいましたら、資料に
> 間違いがあったらしいという、事件がありました(^^;)。

師さんは N-gram の結果をクラスタ分析して樹形図にする話(類似
度を視覚化)を雑誌の論文か何かに書いてますよ。ホームページで
pdf を配布してます。

http://www.ya.sakura.ne.jp/~moro/resources/20020322moro.pdf

宣伝ですが、SJIS を処理できるようにした morogram があります。
perl なしで動くので機会があれば使ってみてください。大きなフ
ァイルを処理するなら僕が書いたやつより軽いし速いです。
http://homepage1.nifty.com/dune/morogram.html? にある、
トライアル版のほうです。
--
http://hpcgi1.nifty.com/dune/gwiki.pl?