作者: 閑舎
日時: 2007/3/03(17:25)
藤岡和夫 <kazuf@...> さん wrote.

>  スクレーピングについては、パターンマッチでやる方法は結局サイトの構成が
> 変更になるとすぐ対応できなくなるのでもう止めたという感じですね。掲示板の
> ように変化がないはずと思っていてもデザインを変更したりしますから、安心で
> きないです。それで最近は、RSS/Atomだけにしています。標準化の威力で極めて
> 安心です^^;)普及してきましたしね^^)

せめてよく使う、フォームがあるページは自動化したいと思ってます。

>  wgetとrsyncで定期的にミラーリングをやる方法がSPIDERING HACKSの最後の方
> にありますけど、wgetは便利なツールそうだなあと思っています。wgetを使うの
> はスマートな方法なのかもしれませんよ。このWebの荒波をサーフィンするには
> ^^)v

wget はユーザ名、パスワードでログインする https のページから情報を取って
こられますが、ログイン後、フォームに何か入れ、さらに継続してフォームをた
どるようなことがしにくいと思います。もっとも、cookie は使えるので、がん
ばって解析していけば、複数ページの巡回なんてこともできなくはないかとは思
いますが。

試しに Yahoo!JAPAN でやってみると

wget --cookies=on --load-cookies MOZILLA_COOKIES.TXT --post-data '.tries=1&.src=www&.intl=jp&.chkP=Y&login=ID&passwd=PASSWORD' https://login.yahoo.co.jp/config/login http://jp.f21.mail.yahoo.co.jp/ym/login

  MOZILLA_COOKIES.TXT, ID, PASSWORD はご自分のを入れて試して下さい。あと
  メールボックスのあるホスト名も違うかも。

でメールボックスのあるページを保存できました。簡単ですね、これは。いろい
ろテストしてみましたが、ユーザ名、パスワードを --post-data に入れてアク
セスとすると、必要な情報の載ったページがぱっと出るように作られた WEBサイ
トがほとんどなんですね(不動産データとか証券とかもそう)。

読み出しだけならスクリプトから wget 1行で十分な感じ(^^;。 

--
本田博通(閑舎)
テキストとスクリプトの http://www.rakunet.org/TSNET/