連休明けは

まぁ、覚悟はしていましたがこんな障害がでるとは。

最初は

ウェブが見えないんですよ。えぇ。そこでバックエンドのZopeインスタンスを全部再起動。さらにZEOも再起動。10時30分ごろに一旦は復旧したように見えましたが、まただめ。

Zopeインスタンス

Zopeインスタンスを再起動すると、一旦は復活するのですが、フロントエンドからリクエストがくると途端に黙り込んでしまう。これって、あぁなんか思い出した。春先(といっても連休ちょっと前)にあった現象と同じだ。。

症状

2台あるバックエンド機器のうち、片方のethでパケットエラーがでているのを発見。とりあえずは、そのマシンをシャットダウンしたところ、ウェブは元気になりました。冗長化しててよかった。
試験的にマシンをあげて、ZopeApacheを起動したところ、先ほどと同じ現象。つまりバックエンド
Zopeが黙り込んでしまう。

これは機器故障?

shutdownコマンドでリブートをかけたところ、OS起動途中で黙り込んでしまいました。強制的に電源断でリブートして立ち上げ、シャットダウン。次に電源を入れるとOSブートもしやがらない。これは本格的にどこかおかしい。

もしかしたら

春先の現象も機器故障だったのかもしれません。メーカには調査依頼。代替機を依頼していますが、どうなるか。代替機がきても環境をつくるのに1日は余裕でかかるしなぁ。

他にも

メールサーバにディスクがいっぱいになってたり。監視体制をもうすこし工夫しないといけないな。