作者: 閑舎
日時: 2006/9/15(13:38)
kbk@... (Bruce.) さん wrote.

> 自分でEncodeモジュールやJcodeモジュールのメソッドを使って変換するにし
> ても、スクリプト自体をShiftJISで記述することには問題があります。

なるほど。Shift JIS 表記には問題がついて回るという事態が終わったわけでは
ないこと、了解しました。

> 一方Pythonでは
> 
> スクリプトの1,2行目あたりに
> # coding: mbcs
> とか書いておくとこの一覧表問題は起きません。Unicode化していない
> 文字列はあくまでバイト列であり、マルチバイトデータが入っていても
> 独立したバイトの並びとしかみなされませんので、正規表現演算を
> 適用しようとしても多分思い通りには行きません。

昔のマルチバイト化された GAWK のような具合にはやはりいかないと。
Bruce. さん、わたなべさん、WILLs さんが grep, sed, awk, perl のマルチバ
イト化に取り組まれていた、あの頃はある意味シンプルでよき時代だったのです
ね。なつかしがってばかりいては時代に取り残されますが……。

> @A = qw(hello world);
> print "ァA";
> 
> をjperlでないperlで実行してみてください。

とてもわかりやすい例です。実際にも十分起きそうな話ですね。 

ありがとうございました。おかげで、だいぶすっきりしてきました。

--
本田博通(閑舎)
テキストとスクリプトの http://www.rakunet.org/TSNET/