オンラインセミナー

前回取り上げたものを始め、様々なツールがAWSの監視に役立つ機能を提供しています。(前回:Amazon CloudWatchの得意なこと苦手なこと:これからAWS監視を始める人へ その2

では、それらのツールが提供する機能に沿って運用すれば問題ないかと言えば、そうではありません。

今回は、監視ツールの機能比較に気を取られるとはまりやすい、いくつかの落とし穴をご紹介します。

AWSのシステム監視でチェックすべきポイント

当サイトで公開中のeBook

7項目でチェック!ハイブリッド時代のシステム監視」に、クラウドシステムを監視する際のチェックポイントが説明されています。

もちろんAWSの監視でも役立ちますので、こちらにご紹介いたします。

7つのチェックポイント

  1. 必要な監視対象を把握していますか?
  2. 最適な監視項目を選定できますか?
  3. クラウドを含めて全体を俯瞰できますか?
  4. クラウドも迅速に原因特定できますか?
  5. クラウドの監視方法を決めていますか?
  6. 監視データを一か所に集められますか?
  7. 利用者の体感品質を把握できますか?

特に4と7は「根本原因の分析」と、「体感品質の測定」の観点から非常に重要な項目です。
しかし、運用監視ツールの選定ではこれらこそ見落とされがちなポイントでもあります。

簡単に概要を解説します。

4. クラウドも迅速に原因特定できますか?

監視ツールのアラートは、システムが特定の(悪い)状況に陥ったことを教えてくれますが、その原因や影響範囲までは教えてくれません。ほとんどの監視ツールでは、トラブルの原因調査は人の手に頼っています。

原因はオンプレミスかAWSか?ネットワークか?サーバか?それともデータベース?根本的にどこを直せばいいのか?

経験豊富な担当者のように、システム間の相互依存関係を把握できていると、アラートの内容を見て、別のシステムへ与える影響もある程度予想できるので、原因究明がスムーズに進みます。

近年は根本原因解析(Root Cause Analysis(略:RCA))の自動化が進んでおり、システムの依存関係を把握して障害の原因を自動で解析してくれるツールやサービスなども登場しています。

障害原因の解析や特定を重視する場合は、この「相互依存関係の把握」をAWS監視の検討に含めてみてはいかがでしょうか。

7. 利用者の体感品質を把握できますか?

ユーザにとって快適に使えるのは当たり前。遅延はストレスとなって、利用者離れを招きます。

しかしリソースの監視で「利用者の感じる品質」を把握するのは困難です。CPUがしきい値を超えた時、いったいユーザが受ける遅延の影響はどれほどでしょうか?10秒?それとも1分でしょうか?それは普段と比べたらどれだけ遅いのでしょうか?

システム利用率が下がっている、利用者が減っている、といった不安や課題があるなら、原因はこのあたりにあるかもしれません。

しかし一般的なシステム監視は、サービス稼働状況を確認することに特化しているため、利用者が体感している品質が保たれているかについてはあまり考慮されていません。

体感品質(Quolity of Experience(略:QoE))を計測するためのツールもありますので、それらをAWS監視に取り入れてみてはいかがでしょうか。

 

さて、これらを踏まえたうえで、前回取り上げた各種監視ツールでこれら7つのチェックポイントに対応できているか、確認してみたいと思います。

 

7つのチェックポイント対応表
チェックポイント評価基準CloudWatchZabbixcactiHinemos
(standard版)
1. 必要な監視対象を把握していますか? ツール側で、AWSの監視に必要な項目をサポートしている
2. 最適な監視項目を選定できますか? 監視対象に応じた監視項目の自動設定機能や、プリセットが用意されている ×
要ダウンロード
3. クラウドを含めて全体を俯瞰できますか? AWS以外のシステムの監視情報を、ツール上で統合できる ×
4. クラウドも迅速に原因特定できますか? 障害の根本原因解析機能がついている × × × ×
5. クラウドの監視方法を決めていますか? エージェント監視、SNMP、その他複数の選択肢から最適な方法を選ぶことができる × ×
6. 監視データを一か所に集められますか? 監視情報の収集が、ファイアウォールなどのセキュリティによって阻害されないこと
7. 利用者の体感品質を把握できますか? ユーザ体感品質(QoE)を計測する機能があること × × × ×

特に重要として挙げた4と7に注目すると、この2つのポイントに、ほとんどのツールが対応できていないことが分かります。

どのツールを採用したとしても、アラートを受け取った後にどれだけ素早く状況把握と原因究明が行えるかが課題になりそうです。

AWS運用の成否を分けるポイント

AWSをはじめとしたクラウド環境のマイグレーションでは、 移行前、移行中、移行後のすべてのステップで発生するパフォーマンスボトルネックの解消が成否を分けます。

CloudTriageはクラウドへの移行前、移行中、移行後、すべてのステップでマイグレーション成功のカギとなるパフォーマンスボトルネック改善のための情報をご提供します。

CloudTriageを用いてクラウドマイグレーションを成功に導くための4つのメリットをご紹介。

AWSへの移行をお考えなら、こちらも是非ご覧ください。

いかがでしたでしょうか。

ここでご紹介できなかったチェック項目にも詳しい解説がありますので、ぜひeBookもご一読下さい。

banner_ebook01new.jpg

7項目でチェック! ハイブリッドクラウド時代のシステム監視 ダウンロード

ハイブリッドクラウド化で気になるレスポンス遅延とシステム障害の原因特定。効率的なハイブリッドクラウド環境の運用管理を実現するための7つのチェック項目をご紹介します。

サービスの品質について補足:Amazon SLAについて

ところで、AWSの主要なインスタンスにはSLAが規定されているものがあります。

例えばEC2は稼働率99.95%という数字が基準となります。

一ヶ月で10分程度の停止を許容できるかどうかはそこで提供されるサービス次第ですが、ただしあくまで同意のための目安であって、稼働率の保障ではありません。

ちなみに、この稼働率を下回った場合の補償はEC2月額利用料の10%~30%とされています。

 

このことからも分かるように、AWSがあなたのサービスの品質や、収益を保証してくれるわけではありません。

各社とも自社が求めるサービスレベルに合わせて監視内容を決定し、運用していくことが求められます。

 

まとめ

AWSの監視に対応した監視ツールは多く存在しますが、ツールの比較だけでは見落としてしまうポイントもあります。監視内容や運用体制を検討する際に、どうぞ今回取り上げたようなポイントを思い出して、自社の求めるサービスレベルを達成して頂ければと思います。

ブログ購読

ブログの最新情報、ニュース、トレンド情報をお届けします。
ハイブリッドクラウドやシステム運用に役立つ情報をご紹介しています。

最新記事