作者: 閑舎
日時: 2003/12/01(23:08)
藤岡和夫 <kazuf@...> さん wrote.

>  それでEncode+utf8を使うとして、utf8を使えるエディタで正規表現文字列を
> 日本語で書いて動くのでしょうか。暗号は書きたくないので(^^;)

Encode モジュールを使っていないので何なのですが、一般的に、UTF-8(UCS-2) は、

  00-7F (ASCII、1 バイト) または
  C2-DF 80-BF (2 バイト) または
  E0-EF 80-BF 80-BF (3 バイト)

という文字のならびなので、ASCII 以外の文字には . を使わない、* ? + は 
(文字列)* のような使い方をする。 [] でマルチバイト文字を使う場合、上のコー
ド範囲を考えて使う、のようにしていけば、まずまず使えるのでは……というか
そういう便を考えて作られたのが UTF-8 だと思います。

# へのへの 2
# へのへのへの 3
while (<>) {
  print "$_" if ($_ =~ /(への){2,}/);
}

を UTF-8 で保存して素の Perl で実行可能ですから。

--
本田博通(閑舎)
テキストとスクリプトの http://rakunet.org/TSNET/