Bruce.です。
davi さんは書きました (2005/12/15 21:29):
> 従って、UTF16にUTF8を組み合わせると、ASCII文字は1バイト、
> S-JIS内にあった漢字などのUCS2領域の文字は3バイト、
> 拡張Bで増補された漢字などは6バイトで表現されるという、
> とんでもないエンコーディングになります。
ここ、違います。
RFCの何番だか忘れましたが、最高でも4バイト長です。
サロゲートペアを使って表現されているものをUTF-8で
表す場合、サロゲートペアのそれぞれをUTF-8でエン
コーディングするのではなく、一度UCS-4での表現に
変換したものをUTF-8表現にするという手順を踏みます。
Oracleの独自規格ででびさんのいうようなエンコーディング
方法もあるようですが、RFC的には違うというのが本当です。
--
木村浩一
I thought what I'd do was, I'd pretend I was one of those deaf-mutes.
mail kbk@...
web www.kt.rim.or.jp/~kbk/index.html#zakkicho
homepage3.nifty.com/farstar/