はじめまして。うえたまさゆきと言います。
水羽さんの
> 今回の作業は改行を欄の区切りとし、空白をレコードの区切りとするunicodeデータ
を特定
> の欄をキーとしてソートするという作業です。
ですが、この「空白」は「空行」(改行だけしかない行)の
ことではでしょうか?
なぜそう思ったかと言いますと、実はパソコン通信時代に
awkでテキストデータの処理をはじめたころ、私は空行の
ことを「空白行」と言っていたからです。「空白行」と言うと、
空白(スペース)がある行という意味になり、改行だけの行
をさすには、不適切だと訂正されました。
こんな経験があったので、もしかすると、水羽さんの「空白」
も、かつての私の「空白行」と同様、「空行」のことではない
かと思った次第です。
そう解釈すると、水羽さんのレコードは、次のように、空行
で区切られたパラグラフからなっていると思われます。
(改行が欄の区切りで、空行がレコードの区切り)
---------------
これが
第1番目
の
レコード
です
次が
第2番目の
レコード
そして今度が
第3番目の
レコード
です
---------------
このデータを、たとえば各レコードの2行目をキーにして並
べたいということではないでしょうか?
こういうソートをパラグラフソートと言いますが、そのツールと
言えば、psortを思い出します。でも、psortは何分少し前の
ツールですから、unicodeは処理できないでしょう。unicode
に対応したpsortってないでよね?
いま新しいソートプログラムがありますが、unicodeに対応し、
キーを指定してパラグラフソートができるものは、何なんでし
ょう。