作者: Bruce.
日時: 2005/10/31(12:38)
まだまだ全然終わんない午前中の仕事です♪

Bruce.です。

機械伯爵 writes:

> > さらに言えば文字コードとエンコーディング方式が微妙に混在
> > しているような気がするんですが。
> 
>  Shift-JISやEUCはエンコーディング方法ですよね。
>  一応考慮してUTF-8とかはやめといたんですが、さすがにShift-JIS
> やEUCの話に触れないわけにもいかなくて。

IANAではShift_JISやEUC-JPなんかも「キャラクタセット」でひとくくりに
なっているので試しに簡単に抜き出してみました。
元データは http://www.iana.org/assignments/character-sets です。

C:\home\doc>egrep -i "^(name|alias):.*(jis|jp)" character-sets
Name: ISO-2022-JP  (preferred MIME name)               [RFC1468,Murai]
Alias: csISO2022JP
Name: ISO-2022-JP-2  (preferred MIME name)              [RFC1554,Ohta]
Alias: csISO2022JP2
Name: JIS_C6220-1969-jp                                 [RFC1345,KXS2]
Alias: JIS_C6220-1969
Alias: csISO13JISC6220jp
Name: JIS_C6220-1969-ro                                 [RFC1345,KXS2]
Alias: jp
Alias: ISO646-JP
Alias: csISO14JISC6220ro
Name: JIS_C6226-1978                                    [RFC1345,KXS2]
Alias: csISO42JISC62261978
Name: JIS_C6226-1983                                     [RFC1345,KXS2]
Alias: JIS_X0208-1983
Alias: csISO87JISX0208
Name: JIS_C6229-1984-a                                   [RFC1345,KXS2]
Alias: jp-ocr-a
Alias: csISO91JISC62291984a
Name: JIS_C6229-1984-b                                   [RFC1345,KXS2]
Alias: ISO646-JP-OCR-B
Alias: jp-ocr-b
Alias: csISO92JISC62991984b
Name: JIS_C6229-1984-b-add                               [RFC1345,KXS2]
Alias: jp-ocr-b-add
Alias: csISO93JIS62291984badd
Name: JIS_C6229-1984-hand                                [RFC1345,KXS2]
Alias: jp-ocr-hand
Alias: csISO94JIS62291984hand
Name: JIS_C6229-1984-hand-add                            [RFC1345,KXS2]
Alias: jp-ocr-hand-add
Alias: csISO95JIS62291984handadd
Name: JIS_C6229-1984-kana                                [RFC1345,KXS2]
Alias: csISO96JISC62291984kana
Name: JIS_X0212-1990                                      [RFC1345,KXS2]
Alias: csISO159JISX02121990
Name: JIS_X0201                                           [RFC1345,KXS2]
Alias: EBCDIC-JP-E
Alias: EBCDIC-JP-kana
Name: JIS_Encoding
Alias: csJISEncoding
Name: Shift_JIS  (preferred MIME name)
Alias: csShiftJIS
Alias: EUC-JP  (preferred MIME name)

結構色々登録されてますね。さらに preferred MIME name のついてるやつに
限ると ISO-2022-JP, ISO-2022-JP2, Shift_JIS, EUC-JP ですか。

Python2.4の Lib/encodings/ の下から日本語関連らしきものを抜き出して
みると

euc_jis_2004.py
euc_jisx0213.py
euc_jp.py
iso2022_jp.py
iso2022_jp_1.py
iso2022_jp_2.py
iso2022_jp_2004.py
iso2022_jp_3.py
iso2022_jp_ext.py
shift_jis.py
shift_jis_2004.py
shift_jisx0213.py

へーデフォルトで JIS X 0213 に対応してるんですね。Perlではオプションだった
と思うんですが。

いじょ。