オンラインセミナー

Root Cause Analysisという根本原因分析を意味する言葉をお聞きになった方は多いと思います。ITインフラの障害原因を特定し、原因分析するという意味です。Root Cause Analysisを自動化する仕組みがあるのですが、システムトラブルの根本原因分析を自動化すると聞くと、エンジニアの方であれば「本当にできるの?怪しい・・・」という感想をもつのではないでしょうか。原因の切り分けに数週間かかったご経験がある方も多いと思いますので、怪しいと思われるのは当然だと思います。今回はRoot Cause Analysisの核となる相関技法について2回に分けてご紹介したいと思います。

根本原因分析に重要な相関関係って?

多くのモニタリングソリューションはきれいなグラフやチャートを表示して、管理者がそれを見て分析する必要があります。エキスパートの方は、この情報をもとに頭の中でシステム間の相関を整理し、直感や経験から原因を切り分けていくのではないでしょうか。ここでは、単にモニタリングシステムが一定のしきい値を超えた場合にアラート送信するという今までの障害検知の方法ではなく、サーバ、OS、アプリケーション、データベース、ネットワークなど様々なコンポーネント間の相互依存関係を理解し、障害の根本原因を特定するための相関についてまとめていきます。まずは、従来の相関アプローチとその課題について知っていただきたいと思います。

従来の相関アプローチ

多くのツールが採用しているCircuit-based Correlation

この手法は一定期間内に発生する可能性のあるイベントから、可能性のあるすべての組合せを洗い出し、ルール化しておくことで、あるイベントが発生したらその組合せを根本原因やチェックポイントとして提示するという仕組みです。実は、既存のモニタリングツールで多く採用されている相関の仕組みです。この仕組みの最大の欠点は膨大なイベントの組合せを網羅できていないという事です。全ての組合せを網羅するのは不可能に近いということと、仮に可能だったとしても、相関ロジックを構築するための作業が極めて大変なため、根本原因の切り分けを自動化するためには向いていません。

症状と原因をマッピングする
Symptom Cause Correlation

これは発生した現象と原因をマッピングするという手法で、過去の履歴を元に原因を提示するものです。このアプローチの最大の弱点は過去に発生した事象をベースにしているため、学習期間が非常に長い事と変化の激しい環境では、正確な情報を提供できない可能性が高いという欠点があります。

Domain Specific Correlation

この手法はネットワークモニタリングツールでよく使われている手法の一つです。あるルータに障害が発生した際にその配下にあるすべてのコンポーネントが通信不能としてレポートされるというものです。これは、ネットワークのトポロジーマップを使って障害原因であるルータを特定するには便利なのですが、ネットワーク以外のサーバ、ストレージ、アプリケーションなどとの関連は分からないため相関の手法とは言えないと思います。

本当に障害の根本原因分析を自動化するために

もうお気づきだと思いますが、上記の3つの従来の相関手法では障害の根本原因を特定できるとは言い難いと思います。では、どのような相関関係を理解することで障害原因の切り分けを自動化できるようになるのかにつきましては、次回のブログでお伝えしていきたいと思います。

ブログ購読

ブログの最新情報、ニュース、トレンド情報をお届けします。
ハイブリッドクラウドやシステム運用に役立つ情報をご紹介しています。

最新記事