Bruce.さん < こん??は でび です
On Tue, 19 Jul 2005 19:11:10 +0900 (JST)
kbk@... (Bruce.) wrote:
> mbsedとgawkですが、現状では文字クラスの範囲指定を使って漢字を指定
> することが事実上できません(元のコード範囲ではなくUnicodeでの値が
> 使われてしまうため)。
gawk-mbcs-win32-20050805 "readme.ja"
|・内部的な話になりますが、マルチバイト文字はワイドキャラクタに変換して
| から処理されています。このため、正規表現で[亜-熙]のように漢字の範囲指
| 定を行っても期待通りの動作はしません。そこで以下のPOSIXキャラクタクラ
| スを追加しました。
ええと、これってつまり-Wctype=SJJIS や -Wctype=EUCを使った時の
挙動を制御してjgawk的な使い方をエミュレートする…って目的なんだ
ろうと理解しましたが、それで良いでしょうか。
いっそ、http://www.unicode.org/Public/4.1.0/ucd/Blocks.txtを
サポートするってのではダメ?
その上で、jgawk的な使い方を意識して、Blocks.txtの定義を更に
細分化拡張した
[:katakana:] 全角カタカナ及び半角カタカナ
[:zenalpha:] 全角アルファベット
とかがあると便利だと思います。
でび http://homepage1.nifty.com/davi/