作者: 藤岡和夫
日時: 2004/7/12(23:16)
On Sat, 10 Jul 2004 00:28:20 +0900
"Bruce." <kbk@...> さんwrote:

> ふーむ。カタカナやひらがなならともかく、漢字がアルファベットの一部というのは
> 納得いきませんねー。BasicLatinはもっと納得いきませんが(^^;
> 
> どうも標準入力からくるとおかしいみたいです。>BasicLatin

 \p{InBasicLatin}はUnicode属性なので、use encoding "sjis"で使って意味が
あるのかどうか問題がありそうな気がします。他のものもそうですね。Perl 5.6
では、use utf8下で有効になる設定だったらしいですから。

 JPerlをPerl 5.8で実現するためにはencodingとreは避けて通れないので、re
についてもいろいろ調べました。perlfaq6.htmlの"How can I match strings
with multibyte characters?"を読んでいると、「日本語のエンコーディングを
使っているなら、jperl 5.005_03を使ってみることを薦める」との文章にぶつかっ
て唖然としました。ActivePerl 5.8.4のドキュメントですけどね。

 正規表現関連のドキュメントも正規表現自体も超複雑化していることに今回初
めて気がつきました。プログラミングPerl第3版の正規表現の章も初めて真面目
に眺めましたけど、まだencodingとの関係においては正規表現は霧の中にある感
じですね。試してみればいいのだけど、全容を把握するのは簡単ではないです。
焦っても仕方がない、当面はJPerlが現実的という結論になりそうです。

藤岡 和夫
FGALTS@...
kazuf@...
TS Networkのために http://homepage1.nifty.com/kazuf/