オンラインセミナー

システムを安定した状態で運営するには、システム障害を未然に防ぐことが重要です。しかし全知全能の神でもないかぎり、すべての障害を予測して対策を講じておくことは不可能です。とはいえ、障害には兆候があり、これを事前に察知して対処できれば、システム運用の安定度は格段にアップするはずです。

異常を知らせるアラートは、しきい値をどのように設定するかで大きく変化します。障害の兆候を検知するためには、しきい値の設定が重要になります。

システムの安定運用のために、しきい値をどう設定すればいいのかをみていきましょう。

手動でのしきい値の設定には限界がある

アラート通知の基準となるしきい値は、監視項目ごとに「この範囲内は安全」「これ以上/これ以下になると異常」といった異常を知らせる目安となる値です。このしきい値は、過去の経験から推測される値やSLAなどで決まった値、メーカーが推奨する値などを元に手動で設定されることが一般的ではないでしょうか。

ご存じの方も多いと思いますが、この手動で設定したしきい値では、障害の発生を知ることはできるが、障害の兆候を事前に察知することはなかなか難しいのです。以前、あるお客様は「しきい値を設定してみたが、アラートが頻繁に通知されるがほとんどが誤報だったり、逆にまったくアラートが通知されなかったりしたので、今はアラート通知機能を使っていない」と仰っていました。同じようなご経験がある方も多いのではないでしょうか? このような状況では障害の発生を検知することもできない可能性があります。

自動でしきい値を設定することが有効

では、どうすればいいのでしょうか?

障害の兆候を事前に察知するためには、日々、変化する監視結果のトレンドを正確にとらえ、動的にしきい値を変更していく必要があります。また、時間や季節によってトレンドは変化するため、時間帯や季節によってそのしきい値を変更しなければ、障害発生は検知できても障害の兆候をとらえることできません。

障害の兆候を事前に察知するには、「いつも」との違いを知る事が重要なのです。

では、なぜ、時間によってしきい値を変更しなければならないのでしょうか? 

お昼休みになるとデータベースへのIOPSが増加するシステムがあるとします。このデータベースはその他の時間帯のIOPSは非常に少ないという傾向があります。固定のしきい値で監視する場合、ピークであるお昼のIOPSを元に上限値を決めることになると思います。

もし、お昼休み以外の時間帯にIOPSが激増した場合、固定のしきい値で異状を検知できるでしょうか?

IOPSが急増しても、お昼休みのピークに達しない場合は異常としてとらえることができません。時間毎に異なるしきい値が設定されていれば、お昼休みのしきい値は高く、その他の時間帯のしきい値は低く設定されているはずであり、このような場合でも異常を検知できるようになります。

まとめ

ウェブ・アプリ・データベースなど、それぞれの監視項目に自動しきい値を設定することができれば、いつもと異なる状態を検知でき、重大な障害が発生する前に対処できる確率が高まります。

ご利用中の監視ツールが自動しきい値に対応していない場合も、時間毎に細かくしきい値設定ができれば、効果はあると思いますので、この機会にしきい値を再確認されてはいかがでしょうか。

関連資料・おすすめのコンテンツ・人気の動画 など

eBook7項目でチェック

7項目でチェック!ハイブリッドクラウド時代のシステム監視

ハイブリッドクラウド化で気になるレスポンス遅延とシステム障害の原因特定。効率的なハイブリッドクラウド環境の運用管理を実現するための7つのチェック項目をご紹介します。

ブログ購読

ブログの最新情報、ニュース、トレンド情報をお届けします。
ハイブリッドクラウドやシステム運用に役立つ情報をご紹介しています。

最新記事