作者: 藤岡和夫
日時: 2006/2/26(09:50)
On Sun, 26 Feb 2006 02:29:57 +0900
"Bruce." <kbk@...> さんwrote:

 コメントありがとうございます。

> >  Perl5.8の環境を中心にと書かれているので、文字コードとencodingの問題を
> > 最初のほうに少しまとめていただいていたら、大変参考になったと思います。本
> > 書ではencodingにはほとんど触れられていないように思いましたが、他の言語で
> > はPerl5.8のencodingのような仕組みを持つものはないのですか?
> 
> 私の知る限りではありません。
> どれもユーザーが陽にUnicodeに変換します(Pythonのencodeとか)。

 Unicodeを中心に考えるか、one of themと考えるのかという違いですかね。今
のPerlもまだ、ascii中心に見えますけど。

> >  Perl5.8による正規表現ハンドブックの読み方の記事でも書きましょうか(^^;)
> 
> それはわたしの役目かも(^^;

 是非解説をまとめていただくとよいですね。昨日はPerl5.8.xのencodingの翻
訳を読ませていただきました。お蔭様で、ようやく、Filter=>1の意味を理解し
ました(^^)v確認してみると、utf8だけでなく、sjisとeuc-jpでも、識別子を書
けるようになりました。それから、use encoding ENCNAME, Filter=>1;のように
ENCNAMEの後に、","が必須であることを確認しました(^^;)元の英文がそうなっ
てるんだけどね。

> >  もっと他にエンコーディング絡みで正規表現に影響が出るところがありますで
> > しょうか。
> 
> \s(¥S)も影響を受けます。全角空白にもマッチするようになります。

 なるほど、空白ですね。メモメモφ(。。)

> この辺はPythonでもlocaleごとに定義が変わるということはドキュメント
> にもありますが(ただしフラグ指定が必要だったかと)、具体的にどう動作
> するのかは調べてないです。
> ほかはどうだったかなあ…

 Perl5.8の正規表現(Unicodeプロパティ)も実際に本格的に使ってみないとどの
ような問題があるのかは想像が付きませんね。おそらく便利なのだろうと期待し
ているのですが・・・utf8のテキストは今のところ、日記のRSSを自動的に生成
するか、rss/atomリーダー(rss2html.cgi/atom2html.cgi)でRSS/ATOMを読む場面
でしか使う機会がないので、本格的なutf8のテキスト処理が必要な場面に遭遇す
ることはほとんどないかもしれません。最近はタグ付きのテキストばかりでおも
しろくないということはありますね。本来のテキスト処理ではない(^^;)

藤岡 和夫
kazuf@...
TS Networkのために http://homepage1.nifty.com/kazuf/