Webがダウン

朝出勤すると、Webが見えないとの報告。例のごとく「見えないってどういう現象を観測したんですか」とか考えながらトップページをみると確かに500エラーになってる。
どういう状況なんだとZabbixサーバの監視コンソールを確認するとこれはタイムアウトする。
sshでWebを構成する各サーバへログインを試みると、ログインできるところと、タイムアウトするところとがある。

どうやらバックエンドのいくつかが機械的にダウンした模様。こういう機器的損傷が起きた場合は監視してくれているZabbixからメールがくるんですが、どうやらZabbixサーバも一緒にダウンしている。そりゃメールもこないよ。
あまり良くないことにWebのコンテンツを格納しているDBサーバが落ちていて、スタンバイ処理がうまく動作していない。外部からのHTTPを受け付けるサーバは健在。DBの復旧はちょっと時間がかかりそうなのでとりあえずは緊急避難的に静的コンテンツのファイルでリクエストをさばくことにする。ファイルは日時でクロールしているものなので24時間まえのものだけど、この際しかたがありません。

複数サーバが同時にダウンしているので、おそらくそれらが乗っている仮想マシンが物理的におっこちたのかも。
上記静的コンテンツをプロバイドして時間を稼いでるうちに、DBのレプリケーション環境をマスタ環境へグレードアップ。復旧時の手間を考えてスタンドアロンで起動して仮復旧させる。

午後にマシンが復旧。午前中にDBに書かれた部分を本番環境と同期をとったうえで、手動でフェイルバック処置。
夕方には復旧しました。

ウェブの管理をやってるとマニュアル化しろとかいろいろ言われますが、こんなのどうやってもマニュアル化なんかできないと思うな。