作者: davi
日時: 2005/12/18(23:56)
Bruce.さん  <  こん??は でび です

sed-mbcs-win32-20051208ですが、新設のPOSIXキャラクタ
クラスが認識されないようです。

検討は、以下のように行いました。

mbsed --ctype=UTF8 -f POSIX.SED AOZORA.TXT > OUT.TXT

POSIX.SEDの内容その1

s/\([:kanji:]\)\([[:katakana:][:zenalpha:][:zenupper:][:zenlower:][:zenkatakana:][:hankatakana:]]\)/\1\
\2/g;

以上2行の場合は出力は、内容に全く変化なしの本文全文となる。

POSIX.SEDの内容その2

s/\([:kanji:]\)\([:hiragana:]\)/\1\
\2/g;
s/\([:kanji:]\)\([:katakana:]\)/\1\
\2/g;
s/\([:kanji:]\)\([:zenalpha:]\)/\1\
\2/g;
s/\([:kanji:]\)\([:zenupper:]\)/\1\
\2/g;
s/\([:kanji:]\)\([:zenlower:]\)/\1\
\2/g;
s/\([:kanji:]\)\([:zenkatakana:]\)/\1\
\2/g;
s/\([:kanji:]\)\([:hankatakana:]\)/\1\
\2/g;

以上14行の場合、出力は、「漢字+その他の文字種」の間に
改行は一切入りません。そして本文最終行に改行なしで続く文字列

|このファイルは、インターネットの図書館、青空文庫
|(http://www.aozora.gr.jp/)で作られました。入力、
|校正、制作にあたったのは、ボランティアの皆さんです。

に、

|このファイルは、インターネットの図書館、青空文庫(http://www.a
|ozora.gr.j
|p/)で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。

と、aとjの直後の二箇所にだけ改行が入りました。

でび  http://homepage1.nifty.com/davi/