作者: Ueta Masayuki
日時: 2003/12/31(21:55)
はじめまして。うえたまさゆきと言います。

水羽さんの

> 今回の作業は改行を欄の区切りとし、空白をレコードの区切りとするunicodeデータ
を特定
> の欄をキーとしてソートするという作業です。

ですが、この「空白」は「空行」(改行だけしかない行)の
ことではでしょうか?

なぜそう思ったかと言いますと、実はパソコン通信時代に
awkでテキストデータの処理をはじめたころ、私は空行の
ことを「空白行」と言っていたからです。「空白行」と言うと、
空白(スペース)がある行という意味になり、改行だけの行
をさすには、不適切だと訂正されました。

こんな経験があったので、もしかすると、水羽さんの「空白」
も、かつての私の「空白行」と同様、「空行」のことではない
かと思った次第です。

そう解釈すると、水羽さんのレコードは、次のように、空行
で区切られたパラグラフからなっていると思われます。
(改行が欄の区切りで、空行がレコードの区切り)

---------------
これが
第1番目
の
レコード
です

次が
第2番目の
レコード

そして今度が
第3番目の
レコード
です
---------------

このデータを、たとえば各レコードの2行目をキーにして並
べたいということではないでしょうか?

こういうソートをパラグラフソートと言いますが、そのツールと
言えば、psortを思い出します。でも、psortは何分少し前の
ツールですから、unicodeは処理できないでしょう。unicode
に対応したpsortってないでよね?

いま新しいソートプログラムがありますが、unicodeに対応し、
キーを指定してパラグラフソートができるものは、何なんでし
ょう。