Bruce.さん < こん??は でび です
On Thu, 15 Dec 2005 23:05:06 +0900
"Bruce." <kbk@...> wrote:
> 一度UCS-4での表現に
> 変換したものをUTF-8表現にするという手順を踏みます。
え・・・
RFC 3629
| In UTF-8, characters from the U+0000..U+10FFFF range (the UTF-16
| accessible range) are encoded using sequences of 1 to 4 octets.
しらなかったよ〜
| Implementations of the decoding algorithm above MUST protect against
|decoding invalid sequences. For instance, a naive implementation may
|decode the overlong UTF-8 sequence C0 80 into the character U+0000,
|or the surrogate pair ED A1 8C ED BE B4 into U+233B4.
「6バイトで送っても復号できるようにしなければならない…」
ということは、間違ったデータの作り方なのね。
でも、そういうデータも復号できなきゃダメっていうのは、
実装者にはキツそうですね。
でび http://homepage1.nifty.com/davi/