httpsでクロールするとエラーになるとか

httpsでクロールするとエラーになるとか

自社ウェブのコンテンツをクロールして、索引を作ってくれる会社と契約をしています。こっちが用意したXMLファイルをGETしてそこに列挙されているURIをクロールするという動作をしている模様。全部クロールすると10時間ほどかかるみたい。
先々週あたりにL2スイッチとウェブサーバの間にちょっとした機械を挟んだところ、そのクロールがエラーになるといいます。そのちょっとした機械はL2レベルでSSLを復号化して、FWに通して、また暗号化してWebサーバへ流す機械。TCP的には入ってくるパケットと出ていくパケットは同じはず。透過的に動作していると思う。

上記のクローラは列挙されているURIにまずHEADを発行して200が帰ってきたらGETするという動作をしているとのことで、最初のHEADが全部じゃなくて、30%くらいエラー(empty body)になるというのです。サーバ側のログではそのエラーになるHEADコマンドに対してもちゃんと200で返していて、FWでもブロックはしていないので、リクエストをだしたところにはちゃんとレスポンスを返していることになっている。
ためしにその「機器」を外してみるとエラーにはならない。うーん、よくわからないぞ。

ちなみにクローラ社側で別機器から同一クローラでやってみるとエラーにならないとのこと。
現象がでているのがそのクローラだけなので、当該アドレスからのリクエストはHTTPSを通さないようにして回避。徹底的に調べるのも面白いでしょうが、実用的じゃないところは思い切って切り捨てることも必要。