作者: 機械伯爵
日時: 2005/10/31(08:50)
 機械す。

 やっぱ文字コードの話題は避けるべきだった(笑)
 いや、マジな話、結構事前勉強し、資料くっぴきながら
書いたんですけどね。

> > 「うん。英語の ASCII コードから発展した ISO コード
> > の基本は、1文字を1バイトっていう情報単位で記録す
> > る方法なんだ。ところが、この1バイトって、基本的に
> > 256 種類しか文字を識別できないんだよね。だから日本
> > 語コードは、1文字2バイトで表してるんだ。
> 
> 後でISO10646に触れているのに一文字一バイトですか?
> 確かに常に1バイト == 8ビットではないわけですが。

 いや、一応1バイト=1オクテッドのつもりです。
 ISOコードといえば、普通ISO 646やISO 8859(Latin-1)
を指すのでそのつもりで書いたんですが……確かにその後、
ISO 10646に触れてるとかなり紛らわしいですね。

> JIS X 0213は無視っすか(笑)

 忘れてました、完璧に(汗)
 なんか書いてて、もう一個規格があったような、と
考えてたんですが……

> それと日本語EUCとEUC-JPって重複してません?

 重複してますね(一方書いとけばいいか)修正しときます。

> さらに言えば文字コードとエンコーディング方式が微妙に混在
> しているような気がするんですが。

 Shift-JISやEUCはエンコーディング方法ですよね。
 一応考慮してUTF-8とかはやめといたんですが、さすがにShift-JIS
やEUCの話に触れないわけにもいかなくて。

 エンコーディングした結果、新たな表が作られて、その表を参照
してるという感じにごまかそうとしたんですが、やっぱりあまりよく
ないかもしれません。

 そのあたり、Blogの公開版は、少し修正しておきます。

 やっぱ、文字コードは鬼門だ(泣)

 /機械伯爵/