利用者にさまざまなサービスを提供するITシステムにおいて、利用者がストレスを感じることがないように、サービスの提供品質(サービスレベル)を維持する必要があります。そのためには、利用者視点でのサービス状況の監視が重要になってきます。
JP1は、安定したサービスを提供できているかどうかを判断するための監視・評価機能を提供。サービスレベルの定期的評価に加え、日々の問題を未然に防ぐサイレント障害検知などのリアルタイム監視により、サービスレベルの維持・向上を支援します。
業務システムのリソース、プロセスなどの監視だけでは判断できないサービス利用者視点によるサービスの性能(平均応答時間、スループット、エラー率)をサービスの評価指標(SLO)に基づいて監視できます。さらに、[サーバ稼働管理:JP1/Performance Management]との連携により、サービスの可用性(サービスの稼働率、MTTR、MTBF)やサービスに関連するシステムの性能(サーバや各種アプリケーションの稼働状況)も監視できます。
これらを定期的に評価することで適切なサービスレベルの維持・向上を支援します。サービスに問題が発生した場合には、サービスに関連するサーバや各種アプリケーションの稼働状況を確認しながら原因の調査ができます。また、個々システム特性に合わせた検知手法により、サービス低下の予兆となるサイレント障害を検知できます。
SLO:Service Level Objective
MTTR:Mean Time To Recovery
MTBF:Mean Time Between Failures

ホーム画面を見るだけで、監視対象サービス全体の状況を把握できます。サービスグループごとの状況のサマリー表示や要注意サービスのランキング、発生したイベントを確認できるほか、エラー・警告・正常に色分けして表示されるので、問題が発生するとすぐに認識できます。

サービス利用者とWebシステム間のトラフィックを収集、分析することで、サービス利用者が体感している性能(サービス性能:平均応答時間、スループット、エラー率)をリアルタイムに監視できます。
リアルタイム監視画面では、サービスごとの状況をリアルタイムにグラフ表示し、状態が正常かどうかを色分けしてわかりやすく表示します。さらに、サービスに関連するシステムの性能(サーバや各種アプリケーションの稼働状況)も合わせて表示できます。

管理者が実際のサービスにアクセスすると、アクセス先のURIを自動検出して設定画面に表示します。検出されたURIを選択するだけで監視対象のサービスとして登録ができます。サービス登録時の入力ミスを防ぎ、管理者の負担を軽減できます。
URI:Uniform Resource Identifier
監視設定画面は非常にシンプル。SLOをしきい値として設定する際や、予兆検知の設定では、あらかじめ初期値が設定されているためすぐに運用を開始できます。監視項目を追加する場合は、対象項目にチェックを入れるだけです。サービス単位で監視設定が可能なため、目標とするサービスレベルに合わせてカスタマイズができます。
サービスの問題発生時に、サービスに関連するサーバや各種アプリケーションの稼働状況を確認しながら原因調査ができます。問題調査画面にサービスに関連するサーバやミドルウェアが関連図で表示されるので、サーバや各種アプリケーションの稼働状況も含めた確認が可能です。サービスとサーバや各種アプリケーションの関連付けは、[サーバ稼働管理:JP1/Performance Management]からシステムの構成情報をインポートできるので容易に設定できます。


監視項目の中から問題がありそうな監視項目の状態変化の起き始めを問題調査画面に自動表示します。調査の基点を表示することで、「どこから調査を始めればよいか、わからない」といった悩みが解消され、問題調査の初動を早めることができます。
問題調査画面の性能グラフでは、サーバや各種アプリケーションの稼働状況がサービス性能と同じ時間軸でグラフ表示できるので、効率的な調査ができます。さらに、サーバや各種アプリケーションの詳細を調査するために、問題調査画面から[サーバ稼働管理:JP1/Performance Management]の監視画面を直接起動することもできます。

[統合コンソール:JP1/Integrated Management]を利用すると、サービス低下の予兆(サイレント障害)を検知した場合に、JP1イベント*として一元管理できます。さらに、[通報管理オプション:JP1/Integrated Management - TELstaff]と組み合わせることにより、メール、携帯電話、パトロールランプなどで管理者に自動通報ができます。
サービス管理者が常に監視画面を見ている必要がなく、サービス管理を含めたシステム全体の集中監視が可能になります。
* システムで発生した事象(イベント)をJP1で管理するための情報です。
しきい値の超過など、明らかな現象が発生するより前の、放置しておくと障害に発展してしまう可能性のある「サイレント障害」をリアルタイムに検知できます。サービス利用者がサービスの低下に気づく前に問題に対処できるプロアクティブな障害対応が実現。これによって快適なサービスを継続して提供できます。

SLOなどの具体的な指標をしきい値とし、これに基づいてサービス性能の傾向をリアルタイムに分析。直近の状態(傾向)から、将来しきい値を超えそうな状態を事前に検知して警告を通知します。
傾向として示す直線は、直近の測定値を基に近似直線を用いて算出します。近似対象として用いる測定値の時間や、しきい値超えまでの時間は、サービスに合わせた調整が可能です。

過去の性能情報から基準値となるベースラインを算出して、現在の測定値が正常範囲(ベースラインからの上限値・下限値)から外れた場合に「いつもと違う傾向」があると判断し、問題の予兆として検知(外れ値検知)します。
外れ値検知のためのしきい値を設定する必要はなく、正常範囲内から外れた場合にいつもと違う状態として警告を通知します。
外れ値検知に過去の応答時間とスループットの相関関係を加えた性能監視ができます。たとえば、応答時間だけで判断した場合、通常のピーク時間帯以外に一時的にサービスにアクセスが集中すると「異常」として検知します。
しかし、時間帯に依存しない応答時間とスループットの相関関係を利用すると、過去の性能情報をもとに応答時間とスループットの相関関係が正常範囲内にある場合は「正常」と判断します。これによって、応答時間だけで判断するよりも予兆検知の精度を高めることができます。
* 外れ値検知+相関関係の検知は、サービス性能(平均応答時間、スループット)のみの対応です。
