作者: 閑舎
日時: 2003/11/30(01:03)
HFC01730@... (水羽信男) さん wrote.

> 仕事の関係でwindows2000のうえで、中国語(GB)コードを処理する機会がままあります。

もし UTF-8 に変換できるなら、変換して、gawk でも perl でも何でも、スクリ
プト内の多バイト文字を UTF-8 で書けばよいと思います(EUC でもいいけれど、
多少難あり。ISO-2022 は絶対止めましょう、複雑で、わけのわからないことに
なります)。こうすると、注意しさえすれば、検索、置換などの処理が可能です。
できないのは、文字クラスを使って、

  [あ-お]

のようなこと、つまり、1 バイト専用の機能を多バイトに拡張して使うようなこ
とです……で、たぶんよかったと思いますね>皆さん。

# Web からの投稿は桁折しませんので、適当に改行を入れてもらったほうがよい
# です。

--
本田博通(閑舎)
テキストとスクリプトの http://rakunet.org/TSNET/