藤岡和夫 <kazuf@...> さん wrote.
> それでEncode+utf8を使うとして、utf8を使えるエディタで正規表現文字列を
> 日本語で書いて動くのでしょうか。暗号は書きたくないので(^^;)
Encode モジュールを使っていないので何なのですが、一般的に、UTF-8(UCS-2) は、
00-7F (ASCII、1 バイト) または
C2-DF 80-BF (2 バイト) または
E0-EF 80-BF 80-BF (3 バイト)
という文字のならびなので、ASCII 以外の文字には . を使わない、* ? + は
(文字列)* のような使い方をする。 [] でマルチバイト文字を使う場合、上のコー
ド範囲を考えて使う、のようにしていけば、まずまず使えるのでは……というか
そういう便を考えて作られたのが UTF-8 だと思います。
# へのへの 2
# へのへのへの 3
while (<>) {
print "$_" if ($_ =~ /(への){2,}/);
}
を UTF-8 で保存して素の Perl で実行可能ですから。
--
本田博通(閑舎)
テキストとスクリプトの http://rakunet.org/TSNET/