テキストデータ活用術1出版

テキストデータ活用術1出版
2024/01/10

 以前から準備していたテキストデータ書斎術の本を、この度やっと出すことができました。 KDP の電子書籍とペーパーバック版です。 以下、その簡単な紹介です。 本それ自体は、右の表紙画か、ページ下の Amazon へのリンクからたどりつけます。


『テキストデータ活用術』シリーズの概要

 ホームページをはじめ様々なところで使われるテキスト形式。 しかし、本当にそれを活用できているかといえば疑問といわざるをえないでしょう。 テキスト加工は伝統的に UNIX のツール群がすぐれていますが、 本格的な活用には、それに加えスクリプトと呼ばれるプログラムも 多少は使えるようになっているに越したことはありません。 このシリーズは小説形式を使い、読みやすい形で、 その環境構築と活用法の導入までを示します。

第一回の内容

 第一回は病気入院中のルミのもとにやってきた家庭教師黒木一馬が 一風変わったキャラクターで回りの人々を煙に巻き、 Windows に vmware をインストールし、Ubuntu(Linux の一種)をゲスト OS として、 そこにテキストデータを蓄積し、活用する環境を整えます。 Ubuntu や Linux なんて難しくって手に負えないと思われていた方々は 何だ、こんなに簡単だったのか、と驚かれるに違いありません。 Windows も WSL という Linux 環境をもたなければならなくなった時代です。 それらを避けて通るのはきっと何か大切なものを失っているのです。

 つづいて Emacs エディタで簡単なホームページを作成し、 ウェブサーバ apache2 をインストールし、 レンタルサーバと同じようにホームディレクトリに www というホームページ専用の場所を作ります。 第一回はここまでを、ゆっくりしたペースで語ります。 最初とまどっていたルミもようやく Ubuntu に慣れ、 難しいという先入観も薄れてきます。 本格的な書斎術のウォーミングアップの始まりです。

第二回以後の内容

 第二回以後、難しいと思われているテキストでの数式や漢文の扱いを片付けて、 Ubuntu の基本アプリによる毎日の差分バックアップ、 膨大なローカルマシンのテキストデータから Google 並のスピードで必要な情報を探し出す全文検索の実現などを紹介し、 単純な作業をマクロで簡便化するやり方、 スクリプトでテキストデータを加工する実例、 スクリプト環境における音声・画像処理、 Linux における Office ツールの使い方など、テキストデータの書斎術に関連する話題を次々に取り上げます。 これらのスクリプトやコマンドを自由に使いこなせれば、 書斎に優秀な専属秘書を置いているのも同様です。 あなたは一人ではなく、二人、いや百人分の援軍を得たようなものです。

……このサイト自体も、テキストデータ書斎術のためのホームページなのですが、 『テキストデータ活用術』という書籍のほうは、まとまった形の入門書として、 このサイトと補完しあうものになると思います。 今のところ、第1巻が出たばかりですが、第2、第3巻まではすでにその準備を整えています。

注意事項

【注意】2024年、Broadcom の vmware 買収による余波として、 本書に記した手順が一部違う形になっています。 vmware をダウンロードするには Broadcom に無料のユーザー登録をする必要があります。 それ以後はほぼ同じ過程でインストールを進められます。

 ソースサンプルのダウンロードは 当サイト からどうぞ。

入手先: テキストデータ活用術1(Amazon)

コメント  記事が気に入ったらいいねしてね! 0  5  

Facebookシェア   
ぷよクエのキャラクタデータをネットから取得し、テキストファイルのDB化するまでの流れをまとめました...
テキスト第一主義というものを人気のぷよクエというゲームを通じ、軽い切り口から考えてみたいと思います...
FESS などの全文検索エンジンがある一方で、昔から grep という便利な検索コマンドがあることが知られている。grep だけでどのくらいのことができるだろうか...
『テキストデータ活用術』は今回の第4巻で完結。これを読めば PC を自分の手足のように使える。サンプルコードのおまけつき...
「テキストデータ活用術」シリーズ 1-4 の各章を簡単にご紹介します...
「活用術1」の続編「テキストデータ活用術2: 小説 家庭教師黒木一馬外伝」Kindle 版を出しました。これはその簡単な紹介です...
以前から準備していたテキストデータ書斎術の本を、この度やっと出すことができました。取りあえず、KDP で電子書籍という形で出していますが、しばらくしたら、引き続きペーパーバック版を出します...