作者: davi
日時: 2005/12/05(03:35)
Bruce.さん  <  こん??は でび です

On Mon, 05 Dec 2005 00:31:42 +0900
"Bruce." <kbk@...> wrote:

> > Unicode文字を16進数で指定する方法ってありますか?
> 
> 現状ではありません。POSIXでもほっとかれてる部分なんで。

やっぱりそうですか…。

> こちらでも進めます。

SJIS文字がUnicodeのどういった所に分散されてるかを
調べようと思いました。

Ken LundeさんのページでSJISを出力して、
(http://www.praxagora.com/lunde/cjkv-char.html)
SJIS文字をUnicodeのコード番号に変換して一覧表を作ろうと
作業を試みたのですが、ソフトによって採用している
変換テーブルに違いがあるようで、それぞれ結果が違い、
結構厄介です。

ちなみにその下準備で

gawk --ctype=UTF8 -f X.awk jis0208.txt > out.txt

とやりました。

X.awkの中身は  { printf "%X\n",$1 };  だけで、
喰わせるデータも一文字一行にしましたが、これだと
コード番号出力できないんですね…。
(出力は全部0になる。)

バージョンはgawk-mbcs-win32-20051130で試しましたが、
SJISテキストをjgawkでやっても同じでしたので、こう
いう使い方は昔から許可されていなかったのでしょう。

かといってダンプツール使うのもイヤだしなぁ。

ということで、今晩はsedの検証は断念して寝ます。
急ぎではないので、ボチボチやりましょう。

でび  http://homepage1.nifty.com/davi/