Oracleに障害

Oracleに障害

いくつかのWebアプリケーションから反応が遅いとのレポート。いつもどおりに「遅いんです」とか「ぐるぐるして終わりません」とかっていう自分語でレポートしてくるので、どんなURIへどのようなリクエストをだして、どのような反応があったのかを定量的に報告してくれといったんは返す。

自分語で喋ってくれたなかのキーワードを整理すると、どうやらOracleDBを参照しているアプリケーションというのが共通点らしい。
早速OracleDBが動作しているサーバをチェックするとCPU負荷が偉いことになっているのを発見。まぁわかりやすい障害ですね。
どうやら特定のクエリがデッドロックしているか、暴走しているかしているようでCPUリソースをほとんど食いつぶしていることが判明。
当該インスタンスを再起動。shutdownがいつまでも終了しないので、当該プロセスをkill。

本当ならそのプロセスがどんなクエリを発行していたかまで調べるのが常道なんでしょうけど、運用担当者としては復旧の方が重要なので。
短時間で劇的に回復。当たり前か。
CPU負荷の経緯はこんな感じ。Zabbixで検知できなかったのはトリガーの調整不足。

f:id:rougeref:20200331150635p:plain