Zabbixで誤検知

Zabbixで誤検知

先月あたりからZabbixでこんなエラーが通知されるようになっています。

Zabbix agent on server_name is unreachable for 5 minutes

監視対象になっている機器はダウンしているわけではなく、OSやネットワークインタフェースも異常なし。
zabbix agentもエラーのログは吐き出していません。いわゆる誤検知ですね。
いろいろ調べていたんですが、以下のことがわかりました。

  • Zabbixサーバとは違うネットワークセグメントに所在しているサーバ群のみから発生している。
  • Zabbix Agentのバージョンは様々。Serverのバージョンは4.0.13だが、 Agentは3.0.7〜4.0.13まで各種。どのバージョンでおきているとかいうことはない。
  • 特定の時間帯に発生している。

当初ZabbixServer側に原因を求めて、Pollerの調整とか、Timeoutの調整などを行っていたんですが一向に効果なし。
上記の別セグメントからのみ発生していることを発見して、どうもセグメント間にあるルータかスイッチに原因があるのではないかと推測している段階。
実際にネットワーク的に障害が発生していると思われます。
保守者へ調査を依頼しているところ。
もし推測がただしければ、もうどうしようもないからトリガの発火条件に時間帯指定をつけるしかないかなぁと考えています。