作者: 閑舎
日時: 2003/11/09(23:39)
>  軽く(数百 KB を目指します)、文字コードコンバータを内蔵し(jis, euc,
> sjis, utf-8 の自動認識、相互変換部分はすでに作成済み)、正規表現による削
> 除、作成、コピー、そして演算機能を持った簡易言語なわけです。

2003-11-05

 * ファイルを読みこんで、文字コードを自動判別し、オプションによって指定
   されたコードで出力するプログラムの完成。-jJsSeEuUtT。小文字は入力、大
   文字は出力。T は Windows の改行、t は UNIX の改行。

2003-11-07

 * 文字コード変換の効率、補助漢字を扱えるようにすることを考え、次のよう
   な 3 バイト固定の中間コードを採用。

    JIS コード                             XRE コード
    ASCII     ... 07-0D or 1A or 20-7F --> 0x81, 不定, 0xXX
    半角仮名  ... A1-DF                --> 0x82, 不定, 0x21-5F    ... -0x80
    0208-1990 ... 21-7E, 21-7E         --> 0xC1, 0x21-7E, 0x21-7E
    0212-1990 ... 21-7E, 21-7E         --> 0xC2, 0x21-7E, 0x21-7E

 * utf-8 以外の変換を再構築する。

2003-11-08

 * Unicode <--> EUC を CP932.TXT によらず glibc に含まれる EUC-JP によっ
   て変換することにした。これにより、著作権は GPL にて統一可能。スクリプ
   トは euc-jp2xrc.pl

2003-11-09

 * utf-8 と xrc 変換のための関数を作成完了。

という経過で、何とかひとさまにお見せできる段階まで来たようなので、公開し
ます。今のところ、文字コード変換以外の機能は全く実装されていない(!) XML 
用言語、ではなくツールです(MS-DOS 版だと文字変換テーブル内蔵で 100 KB を
切ったのがうれしい)。

--
本田博通(閑舎)
テキストとスクリプトの http://rakunet.org/TSNET/