まだまだ全然終わんない午前中の仕事です♪
Bruce.です。
機械伯爵 writes:
> > さらに言えば文字コードとエンコーディング方式が微妙に混在
> > しているような気がするんですが。
>
> Shift-JISやEUCはエンコーディング方法ですよね。
> 一応考慮してUTF-8とかはやめといたんですが、さすがにShift-JIS
> やEUCの話に触れないわけにもいかなくて。
IANAではShift_JISやEUC-JPなんかも「キャラクタセット」でひとくくりに
なっているので試しに簡単に抜き出してみました。
元データは http://www.iana.org/assignments/character-sets です。
C:\home\doc>egrep -i "^(name|alias):.*(jis|jp)" character-sets
Name: ISO-2022-JP (preferred MIME name) [RFC1468,Murai]
Alias: csISO2022JP
Name: ISO-2022-JP-2 (preferred MIME name) [RFC1554,Ohta]
Alias: csISO2022JP2
Name: JIS_C6220-1969-jp [RFC1345,KXS2]
Alias: JIS_C6220-1969
Alias: csISO13JISC6220jp
Name: JIS_C6220-1969-ro [RFC1345,KXS2]
Alias: jp
Alias: ISO646-JP
Alias: csISO14JISC6220ro
Name: JIS_C6226-1978 [RFC1345,KXS2]
Alias: csISO42JISC62261978
Name: JIS_C6226-1983 [RFC1345,KXS2]
Alias: JIS_X0208-1983
Alias: csISO87JISX0208
Name: JIS_C6229-1984-a [RFC1345,KXS2]
Alias: jp-ocr-a
Alias: csISO91JISC62291984a
Name: JIS_C6229-1984-b [RFC1345,KXS2]
Alias: ISO646-JP-OCR-B
Alias: jp-ocr-b
Alias: csISO92JISC62991984b
Name: JIS_C6229-1984-b-add [RFC1345,KXS2]
Alias: jp-ocr-b-add
Alias: csISO93JIS62291984badd
Name: JIS_C6229-1984-hand [RFC1345,KXS2]
Alias: jp-ocr-hand
Alias: csISO94JIS62291984hand
Name: JIS_C6229-1984-hand-add [RFC1345,KXS2]
Alias: jp-ocr-hand-add
Alias: csISO95JIS62291984handadd
Name: JIS_C6229-1984-kana [RFC1345,KXS2]
Alias: csISO96JISC62291984kana
Name: JIS_X0212-1990 [RFC1345,KXS2]
Alias: csISO159JISX02121990
Name: JIS_X0201 [RFC1345,KXS2]
Alias: EBCDIC-JP-E
Alias: EBCDIC-JP-kana
Name: JIS_Encoding
Alias: csJISEncoding
Name: Shift_JIS (preferred MIME name)
Alias: csShiftJIS
Alias: EUC-JP (preferred MIME name)
結構色々登録されてますね。さらに preferred MIME name のついてるやつに
限ると ISO-2022-JP, ISO-2022-JP2, Shift_JIS, EUC-JP ですか。
Python2.4の Lib/encodings/ の下から日本語関連らしきものを抜き出して
みると
euc_jis_2004.py
euc_jisx0213.py
euc_jp.py
iso2022_jp.py
iso2022_jp_1.py
iso2022_jp_2.py
iso2022_jp_2004.py
iso2022_jp_3.py
iso2022_jp_ext.py
shift_jis.py
shift_jis_2004.py
shift_jisx0213.py
へーデフォルトで JIS X 0213 に対応してるんですね。Perlではオプションだった
と思うんですが。
いじょ。