作者: 藤岡和夫
日時: 2003/12/02(01:03)
閑舎さん、コメントありがとうございます。rssの件もありがとうございました。

On Mon, 01 Dec 2003 23:08:37 +0900 (JST)
閑舎 <raku@...> さんwrote:

> Encode モジュールを使っていないので何なのですが、一般的に、UTF-8(UCS-2) は、
> 
>   00-7F (ASCII、1 バイト) または
>   C2-DF 80-BF (2 バイト) または
>   E0-EF 80-BF 80-BF (3 バイト)
> 
> という文字のならびなので、ASCII 以外の文字には . を使わない、* ? + は 
> (文字列)* のような使い方をする。 [] でマルチバイト文字を使う場合、上のコー
> ド範囲を考えて使う、のようにしていけば、まずまず使えるのでは……というか
> そういう便を考えて作られたのが UTF-8 だと思います。
> 
> # へのへの 2
> # へのへのへの 3
> while (<>) {
>   print "$_" if ($_ =~ /(への){2,}/);
> }
> 
> を UTF-8 で保存して素の Perl で実行可能ですから。

 なるほど、それで動くなら、入出力をEncodeで制御すればSJISだってなんだっ
て使えることになりますね。極悪さんの言われる通りですね。

 モジュールにもutf8で渡せば問題はないわけだから。実際にどこかで試してみ
ます。最近のエディタは大体utf8をサポートしていますし。多少、入出力部分が
面倒ですけど、インターネットでは結局文字コードの問題は常に付きまとうわけ
だし、どこかで変換は必要になりますからね。

 それはそうと、HTMLってutf8で動くんですか。あまり見たことないですけど、
当然ブラウザで表示できますよね。まあ、試してみればいいんですけど(^^;)そ
れならインターネット関連データはutf8ですべて持つことにしてもよいですね。
そうするとスクリプトがもっとシンプルになりますね。すべてutf8に変換して取
り扱うことにすればよいわけだから。これは試す価値がありそうですね。ありが
とうございました。

藤岡 和夫
FGALTS@...
kazuf@...
TS Networkのために http://homepage1.nifty.com/kazuf/