作者: davi
日時: 2005/8/06(20:09)
Bruce.さん  <  こん??は でび です

On Tue, 19 Jul 2005 19:11:10 +0900 (JST)
kbk@... (Bruce.) wrote:

> mbsedとgawkですが、現状では文字クラスの範囲指定を使って漢字を指定
> することが事実上できません(元のコード範囲ではなくUnicodeでの値が
> 使われてしまうため)。

gawk-mbcs-win32-20050805 "readme.ja"
|・内部的な話になりますが、マルチバイト文字はワイドキャラクタに変換して
|  から処理されています。このため、正規表現で[亜-熙]のように漢字の範囲指
|  定を行っても期待通りの動作はしません。そこで以下のPOSIXキャラクタクラ
|  スを追加しました。

ええと、これってつまり-Wctype=SJJIS や -Wctype=EUCを使った時の
挙動を制御してjgawk的な使い方をエミュレートする…って目的なんだ
ろうと理解しましたが、それで良いでしょうか。

いっそ、http://www.unicode.org/Public/4.1.0/ucd/Blocks.txtを
サポートするってのではダメ?

その上で、jgawk的な使い方を意識して、Blocks.txtの定義を更に
細分化拡張した

[:katakana:] 全角カタカナ及び半角カタカナ
[:zenalpha:] 全角アルファベット

とかがあると便利だと思います。

でび  http://homepage1.nifty.com/davi/