歳も押し詰まり、皆さんいかがお過ごしでしょうか。
sortfというツールは皆さんご存じだと思います。
フィールドにキーを設定しての並べ替えはとても重宝していました。
僕は仕事がら多漢字の世界なので、勢い先日の質問のようにgbや、big5など中国語を扱う
か、unicodeのファイルでの作業が多くなります。
これまでは、北原さんのkctransでsjisにコード変換をしてから、sortfなどを使用して
テキスト処理をしていました。
ただ、最近、そうした変換をせずに、ファイルの文字コードごとに作業はできないもの
か、ということも考え始めました。
今回の作業は改行を欄の区切りとし、空白をレコードの区切りとするunicodeデータを特定
の欄をキーとしてソートするという作業です。
通常のソートであれば、先日ご紹介してTcl/Tkで作られたC_LECというシェアウェアで処理
できるのですが……。
たぶんこうした質問は、皆さんにとっては初歩の初歩だと思うのですが、Tcl/Tkやrubyな
どで欄区切りのデータを扱う、ということに関する分かり易い説明というのはないもので
しょうか。
sortf or awk etc. --->Tcl/Tk or ruby etc. という流れは、Tcl/Tkなどを矮小化しかね
ないかも知れませんが、さしあたりの僕のレベルでは、実用的な問題です。
お忙しいとは思いますが、こんな情報を見たら、というアドバイスをいただければ、幸甚
です。
みずは