作者: Bruce.
日時: 2006/2/26(02:29)
Bruce.です。

藤岡和夫 さんは書きました (2006/02/26 1:38):
>  おっしゃるように、わかっている人には、192ページのPOINTのコラムを読めば、
> 文字コードがEUCやSJISの場合には、jperlやjgawk等のマルチバイトの正規表現
> エンジンを持つものを対象とした話をしているのだなとわかると思います。しか
> し、本書の読み方の最初に、基本的にPerl5.8の環境を中心に解説していること
> になっていますから、その前提が違うところは明示してもらったほうが親切な気
> がしました。

そうですね。
次があるかどうかは分かりませんが、貴重なご意見として賜ります。

>  Perl5.8の環境を中心にと書かれているので、文字コードとencodingの問題を
> 最初のほうに少しまとめていただいていたら、大変参考になったと思います。本
> 書ではencodingにはほとんど触れられていないように思いましたが、他の言語で
> はPerl5.8のencodingのような仕組みを持つものはないのですか?

私の知る限りではありません。
どれもユーザーが陽にUnicodeに変換します(Pythonのencodeとか)。

Perl の encodingプラグマに関する問題をはっきりと認識したのは
最近なので、本を記述しているときにはそれをまとめようという頭
はありませんでした。

>> 記述が足りないのは確かだと思いますが、どう対処したものやら。
>> 正誤表に載せるようなものではないと思えるし。
> 
>  Perl5.8による正規表現ハンドブックの読み方の記事でも書きましょうか(^^;)

それはわたしの役目かも(^^;

>  その他、エンコーディング絡みで気になったのは、\bや\wと\Wがencodingの有
> 無によって変化することですね。英大文字列の抽出の正規表現のところです。こ
> の場合、use encoding "utf8";とした場合と何もencodingを使わない場合では、
> \bの位置が変化します。
> 
>  もっと他にエンコーディング絡みで正規表現に影響が出るところがありますで
> しょうか。

\s(¥S)も影響を受けます。全角空白にもマッチするようになります。

この辺はPythonでもlocaleごとに定義が変わるということはドキュメント
にもありますが(ただしフラグ指定が必要だったかと)、具体的にどう動作
するのかは調べてないです。
ほかはどうだったかなあ…

-- 
木村浩一
  I thought what I'd do was, I'd pretend I was one of those deaf-mutes.
  mail kbk@...
	web  www.kt.rim.or.jp/~kbk/index.html#zakkicho
	     homepage3.nifty.com/farstar/