wgetのexclude-diretoriesオプション

自サイトを都合で毎日クロールしています。wgetの--recursiveオプションをつけてサイトごとクロール。で、あるディレクトリ以下はクロールしてはいけないという条件ができました。特定ディレクトリ以下を除外するには--exclude-directoriesオプションをつけて除外するディレクトリをコンマ(,)で区切って列記。ドメイン名をつけてはいけません。

  wget --recursive \
       --exclude-directories= /images,/hogehoge

ん〜、除外してくれないぞ?
よーくみると、指定したディレクトリに前に空白がついていました。正しい例はこちら。

  wget --recursive \
       --exclude-directories=/images,/hogehoge

試験環境までつくって検証したのに、空白一文字が犯人だったという話。