wgetを多重化できないか
と検討してみました。
管理しているサイトでは緊急時(たとえばバックエンドがお亡くなりになった時)や、画像だけは素早くレスポンスを返すとかといった目的のために、ローカルから毎日wgetでクロールを実施しています。
ところが、これが遅くて遅くて、一日じゃ終わらない。一日どころか一週間くらいwgetが動きっぱなし。
なんとかならんか
それじゃぁまぁ不都合が出るわけですよ。なんとか早くならんかなと。
せめてダウンロードする(つまりはhttpでgetを発行するのを)のを並列でやってくれないかなとオプションをしらべても、そういう機能はなし。
じゃあ
じゃあってんで、まずはURIのリストをつくって、xargsでwgetをパイプして云々そればいいかなと。
wgetには--spiderってオプションがあって、ダウンロードはしないでURIが生きてるか死んでいるかだけを調べてくれるモードがあります。HTTPでいうところのHEADだけ発行するんですね。
これで再帰的にwgetを走らせて、ログを見てみたところHEADしてからGETしている。
そうか。再帰的にページを取得するんだから、リンク先を調べるために結局ダウンロードしてしまうんだな。
それじゃ意味がないなぁ。
そしたら
ある程度のディレクトリ構成は分かってるからそれで分割してみるか。。
結果は又今度。