wgetでサイトをコピーしたい
wgetで自分の管理しているウェブのコンテンツをまるごとコピーしたかったのですが、以下のようにするとCSSから参照している画像を全然とってきてくれません。
/usr/local/bin/wget \ --directory-prefix=/usr/local/apache2/htdocs/contents \ --page-requisites \ --recursive \ --no-host-directories \ --tries=1 \ --timeout=1 \ --timestamping \ --wait=1 \ http://www.hogehoge.com/indexj.html
うーむ、なにかいい手はないものかと調べていると、これはどうやらwget1.11のバグらしい。1.12で反映しますよーってBugtracには書いてあるんですが、リリースまで待てない。故にリポジトリからソースを取り出してdevelでもいいから使ってみる。ソースはここにあります。このソースを取り出して展開。その後
# ./autogen.sh # ./configure # make ; make install
でOK。自分の環境ではautoconfのバージョンがすこし古かったのでそれもバージョンアップ。
# /usr/local/bin/wget --version GNU Wget 1.12-devel Options : +digest +ipv6 +nls +ntlm +opie +md5/openssl +https -gnutls +openssl +gettext Wgetrc : /usr/local/etc/wgetrc (system) Locale : /usr/local/share/locale Compile : gcc -DHAVE_CONFIG_H -DSYSTEM_WGETRC="/usr/local/etc/wgetrc" -DLOCALEDIR="/usr/local/share/locale" -I. -I. -I. -I../lib -g -O2 Link : gcc -g -O2 -lssl -lcrypto -ldl -lrt ftp-opie.o openssl.o http-ntlm.o gen-md5.o ../lib/libgnu.a Copyright (C) 2008 Free Software Foundation, Inc. ライセンス GPLv3+: GNU GPL バージョン 3 あるいはそれ以降のバージョン <http://www.gnu.org/licenses/gpl.html>. このソフトウェアはフリーソフトウェアです。自由に変更、再配布ができます。 法律が許すかぎり、全くの無保証です。 Hrvoje Niksic <hniksic@xemacs.org> によって書かれました。 現在は Micah Cowan <micah@cowan.name> によってメンテナンスされています。 Please send bug reports and questions to <bug-wget@gnu.org>.
これでCSSから参照されている画像ファイルもちゃんととってきてくれます。でもまだまだ問題があるのだ。それはまた後日。