作者: Bruce.
日時: 2005/8/07(23:35)
Bruce.です。

davi さんは書きました (2005/08/07 3:41):
> プログラム的な処理の実態はわかりませんが、処理対象
> ファイルがSJISやEUCなら、U+03AAの「Iの上に“‥”」
> とかは表現しようが無いでしょうから、「ハミ出る部分は
> 知らんもんね」的な実装をすれば楽じゃん?
> という風に考えたのですね。

いやまあ、漢字に関しては今でもそういう実装になってます。
ただUnicodeのブロックってたくさんあるじゃないですか、
タミル語とか、それらすべてを網羅するの?
という疑問です。はい。

> U+0370〜U+03FFを[:GreekAndCoptic:]とかにしておいて、
> S-JISの839F〜83FCはその中に含まれるから、適宜処理
> されるでしょ、みたいな。
> 
> 大きいことは良いことだで、単純化しすぎでしょうか。

まあそういう面はあるでしょうね。
ただ方針としては悪くはないんじゃないかと。


> このような、非ASCII文字をASCIIで表現する方法がいくつか
> ありますが、こういうのをデコードする(って言い方で良いの
> かな?)\xに類似の機能も欲しい気がしています。

gawkなら関数という形で追加できそうな気がしますが、sedでと
なるといい表現方法ありますか?

-- 
木村浩一
  I thought what I'd do was, I'd pretend I was one of those deaf-mutes.
  mail kbk@...
	web  www.kt.rim.or.jp/~kbk/index.html#zakkicho
	     homepage3.nifty.com/farstar/