作者: Bruce.
日時: 2005/12/15(23:05)
Bruce.です。

davi さんは書きました (2005/12/15 21:29):
> 従って、UTF16にUTF8を組み合わせると、ASCII文字は1バイト、
> S-JIS内にあった漢字などのUCS2領域の文字は3バイト、
> 拡張Bで増補された漢字などは6バイトで表現されるという、
> とんでもないエンコーディングになります。

ここ、違います。

RFCの何番だか忘れましたが、最高でも4バイト長です。
サロゲートペアを使って表現されているものをUTF-8で
表す場合、サロゲートペアのそれぞれをUTF-8でエン
コーディングするのではなく、一度UCS-4での表現に
変換したものをUTF-8表現にするという手順を踏みます。

Oracleの独自規格ででびさんのいうようなエンコーディング
方法もあるようですが、RFC的には違うというのが本当です。

-- 
木村浩一
  I thought what I'd do was, I'd pretend I was one of those deaf-mutes.
  mail kbk@...
	web  www.kt.rim.or.jp/~kbk/index.html#zakkicho
	     homepage3.nifty.com/farstar/