> 軽く(数百 KB を目指します)、文字コードコンバータを内蔵し(jis, euc,
> sjis, utf-8 の自動認識、相互変換部分はすでに作成済み)、正規表現による削
> 除、作成、コピー、そして演算機能を持った簡易言語なわけです。
2003-11-05
* ファイルを読みこんで、文字コードを自動判別し、オプションによって指定
されたコードで出力するプログラムの完成。-jJsSeEuUtT。小文字は入力、大
文字は出力。T は Windows の改行、t は UNIX の改行。
2003-11-07
* 文字コード変換の効率、補助漢字を扱えるようにすることを考え、次のよう
な 3 バイト固定の中間コードを採用。
JIS コード XRE コード
ASCII ... 07-0D or 1A or 20-7F --> 0x81, 不定, 0xXX
半角仮名 ... A1-DF --> 0x82, 不定, 0x21-5F ... -0x80
0208-1990 ... 21-7E, 21-7E --> 0xC1, 0x21-7E, 0x21-7E
0212-1990 ... 21-7E, 21-7E --> 0xC2, 0x21-7E, 0x21-7E
* utf-8 以外の変換を再構築する。
2003-11-08
* Unicode <--> EUC を CP932.TXT によらず glibc に含まれる EUC-JP によっ
て変換することにした。これにより、著作権は GPL にて統一可能。スクリプ
トは euc-jp2xrc.pl
2003-11-09
* utf-8 と xrc 変換のための関数を作成完了。
という経過で、何とかひとさまにお見せできる段階まで来たようなので、公開し
ます。今のところ、文字コード変換以外の機能は全く実装されていない(!) XML
用言語、ではなくツールです(MS-DOS 版だと文字変換テーブル内蔵で 100 KB を
切ったのがうれしい)。
--
本田博通(閑舎)
テキストとスクリプトの http://rakunet.org/TSNET/