On Mon, 26 Feb 2007 01:14:08 +0900 (JST)
閑舎 <raku@...> さんwrote:
> パソコン通信時代の NIFTYの自動巡回はパターンがあって、アクセスポイント、
> パスワード、フォーラム名、いろんなコマンド、という感じで、それをスマート
> にサポートする通信プログラムが花盛りだったかと思います。
そうですね。AirWEBが完成していれば、今頃、それを使っていたかもしれませ
んが・・・
> 現在は、NIFTYのみならず百サイト百様ですが、例えば、https で、ユーザ名、
> パスワードでログインし、セッション管理されている、比較的仕様変更がないサ
> イトの所定の箇所を見て回り(落として回り)、そこでデータを見て必要なら
> POSTでアップロードする、みたいなことを、フォームにいちいち手で書くような
> まだるっこしいやり方でなく実現したいというわけで……。
スクレーピングについては、パターンマッチでやる方法は結局サイトの構成が
変更になるとすぐ対応できなくなるのでもう止めたという感じですね。掲示板の
ように変化がないはずと思っていてもデザインを変更したりしますから、安心で
きないです。それで最近は、RSS/Atomだけにしています。標準化の威力で極めて
安心です^^;)普及してきましたしね^^)
特定のブックマークフォルダにRSS/AtomのURLを入れておいて次々に読み出し
て表示するなんてことはやってみましたが、その時の気分で好きなのをクリック
して読み出すというので実際には十分ですね。ただそれだけならブックマークを
クリックするのと同じということになるのですが^^;)
たむらさんが紹介されているページのWWW::Mechanizeを使う方法はSPIDERING
HACKSにもPerl版が紹介されていますが、これを使ったとしてもサイトの構造に
依存するので一品料理的になるのではないでしょうか。しかし、この方法はスマー
トでかっこいいですね。SPIDERING HACKSでは、文字コードの問題に対処したバー
ジョンを出しています。
ただ、AirWEBが完成しなかった原因も処理が一品料理的になるところにあるの
ではと思います。とにかくWebの変化は激しいです。RSS/AtomのURLの管理だけで
も結構大変ですね。すぐ切れてしまったり、変更されたりで。
> wget は https が使え、--post-dataオプションがあって、これにスクリプトを
> かませると実現できるといえばできるんですが、スマートじゃないですし、何か
> いいやり方がありそうで……。
wgetとrsyncで定期的にミラーリングをやる方法がSPIDERING HACKSの最後の方
にありますけど、wgetは便利なツールそうだなあと思っています。wgetを使うの
はスマートな方法なのかもしれませんよ。このWebの荒波をサーフィンするには
^^)v
藤岡 和夫
kazuf@...
日曜プログラマのひとりごと http://homepage1.nifty.com/kazuf/renewal.html