機械す。
やっぱ文字コードの話題は避けるべきだった(笑)
いや、マジな話、結構事前勉強し、資料くっぴきながら
書いたんですけどね。
> > 「うん。英語の ASCII コードから発展した ISO コード
> > の基本は、1文字を1バイトっていう情報単位で記録す
> > る方法なんだ。ところが、この1バイトって、基本的に
> > 256 種類しか文字を識別できないんだよね。だから日本
> > 語コードは、1文字2バイトで表してるんだ。
>
> 後でISO10646に触れているのに一文字一バイトですか?
> 確かに常に1バイト == 8ビットではないわけですが。
いや、一応1バイト=1オクテッドのつもりです。
ISOコードといえば、普通ISO 646やISO 8859(Latin-1)
を指すのでそのつもりで書いたんですが……確かにその後、
ISO 10646に触れてるとかなり紛らわしいですね。
> JIS X 0213は無視っすか(笑)
忘れてました、完璧に(汗)
なんか書いてて、もう一個規格があったような、と
考えてたんですが……
> それと日本語EUCとEUC-JPって重複してません?
重複してますね(一方書いとけばいいか)修正しときます。
> さらに言えば文字コードとエンコーディング方式が微妙に混在
> しているような気がするんですが。
Shift-JISやEUCはエンコーディング方法ですよね。
一応考慮してUTF-8とかはやめといたんですが、さすがにShift-JIS
やEUCの話に触れないわけにもいかなくて。
エンコーディングした結果、新たな表が作られて、その表を参照
してるという感じにごまかそうとしたんですが、やっぱりあまりよく
ないかもしれません。
そのあたり、Blogの公開版は、少し修正しておきます。
やっぱ、文字コードは鬼門だ(泣)
/機械伯爵/