本文へジャンプ

統合システム運用管理 JP1

Hitachi

サービスレベル管理

利用者にさまざまなサービスを提供するITシステムにおいて、利用者がストレスを感じることがないように、サービスの提供品質(サービスレベル)を維持する必要があります。そのためには、利用者視点でのサービス状況の監視が重要になってきます。

JP1は、安定したサービスを提供できているかどうかを判断するための監視・評価機能を提供。サービスレベルの定期的評価に加え、日々の問題を未然に防ぐサイレント障害検知などのリアルタイム監視により、サービスレベルの維持・向上を支援します。

  • 2分でわかる!JP1製品紹介ムービー

  • システム構成

サービスレベル管理 <JP1/IT Service Level Management>

サービスレベルを維持できているか知りたい。

業務システムのリソース、プロセスなどの監視だけでは判断できないサービス利用者視点によるサービスの性能(平均応答時間、スループット、エラー率)をサービスの評価指標(SLO)に基づいて監視できます。さらに、[サーバ稼働管理:JP1/Performance Management]との連携により、サービスの可用性(サービスの稼働率、MTTR、MTBF)やサービスに関連するシステムの性能(サーバや各種アプリケーションの稼働状況)も監視できます。
これらを定期的に評価することで適切なサービスレベルの維持・向上を支援します。サービスに問題が発生した場合には、サービスに関連するサーバや各種アプリケーションの稼働状況を確認しながら原因の調査ができます。また、個々システム特性に合わせた検知手法により、サービス低下の予兆となるサイレント障害を検知できます。

SLO:Service Level Objective
MTTR:Mean Time To Recovery
MTBF:Mean Time Between Failures

サービス全体の状況はホーム画面で一目瞭然

ホーム画面を見るだけで、監視対象サービス全体の状況を把握できます。サービスグループごとの状況のサマリー表示や要注意サービスのランキング、発生したイベントを確認できるほか、エラー・警告・正常に色分けして表示されるので、問題が発生するとすぐに認識できます。

システム構成

利用者が体感している性能を監視したい。

サービス利用者が体感している性能のリアルタイム監視

サービス利用者とWebシステム間のトラフィックを収集、分析することで、サービス利用者が体感している性能(サービス性能:平均応答時間、スループット、エラー率)をリアルタイムに監視できます。
リアルタイム監視画面では、サービスごとの状況をリアルタイムにグラフ表示し、状態が正常かどうかを色分けしてわかりやすく表示します。さらに、サービスに関連するシステムの性能(サーバや各種アプリケーションの稼働状況)も合わせて表示できます。

監視サービスの自動検出

管理者が実際のサービスにアクセスすると、アクセス先のURIを自動検出して設定画面に表示します。検出されたURIを選択するだけで監視対象のサービスとして登録ができます。サービス登録時の入力ミスを防ぎ、管理者の負担を軽減できます。

URI:Uniform Resource Identifier

シンプルな監視設定画面

監視設定画面は非常にシンプル。SLOをしきい値として設定する際や、予兆検知の設定では、あらかじめ初期値が設定されているためすぐに運用を開始できます。監視項目を追加する場合は、対象項目にチェックを入れるだけです。サービス単位で監視設定が可能なため、目標とするサービスレベルに合わせてカスタマイズができます。

システム構成

サービスレベルを定期的に評価したい。

評価レポート

サービス性能とサービスに関連したサーバや各種アプリケーションの性能について、平均値やSLO遵守率をレポート表示できます。また、日次のような短期間や、週次、月次など、さまざまな期間で、平均値・最大値・最小値をグラフで出力できます。さらに、グラフに表示されたデータはCSVファイル形式で出力することも可能です。

SLO遵守率とは

SLOをしきい値とした場合に、しきい値を遵守できている時間の割合を自動計算したもの。

システム構成

効率良く問題を調査したい。

サービスとシステムの関連付けによる問題調査

サービスの問題発生時に、サービスに関連するサーバや各種アプリケーションの稼働状況を確認しながら原因調査ができます。問題調査画面にサービスに関連するサーバやミドルウェアが関連図で表示されるので、サーバや各種アプリケーションの稼働状況も含めた確認が可能です。サービスとサーバや各種アプリケーションの関連付けは、[サーバ稼働管理:JP1/Performance Management]からシステムの構成情報をインポートできるので容易に設定できます。



調査の基点を自動表示

監視項目の中から問題がありそうな監視項目の状態変化の起き始めを問題調査画面に自動表示します。調査の基点を表示することで、「どこから調査を始めればよいか、わからない」といった悩みが解消され、問題調査の初動を早めることができます。

複数の監視項目を同じ時間軸でグラフ表示

問題調査画面の性能グラフでは、サーバや各種アプリケーションの稼働状況がサービス性能と同じ時間軸でグラフ表示できるので、効率的な調査ができます。さらに、サーバや各種アプリケーションの詳細を調査するために、問題調査画面から[サーバ稼働管理:JP1/Performance Management]の監視画面を直接起動することもできます。

システム構成

運用の幅が広がるJP1連携

イベントの一元管理とサービス管理者への自動通報

イベントの一元管理とサービス管理者への自動通報

[統合コンソール:JP1/Integrated Management]を利用すると、サービス低下の予兆(サイレント障害)を検知した場合に、JP1イベント*として一元管理できます。さらに、[通報管理オプション:JP1/Integrated Management - TELstaff]と組み合わせることにより、メール、携帯電話、パトロールランプなどで管理者に自動通報ができます。
サービス管理者が常に監視画面を見ている必要がなく、サービス管理を含めたシステム全体の集中監視が可能になります。

* システムで発生した事象(イベント)をJP1で管理するための情報です。

サービス低下の予兆(サイレント障害)を検知する3つの手法

しきい値の超過など、明らかな現象が発生するより前の、放置しておくと障害に発展してしまう可能性のある「サイレント障害」をリアルタイムに検知できます。サービス利用者がサービスの低下に気づく前に問題に対処できるプロアクティブな障害対応が実現。これによって快適なサービスを継続して提供できます。

直近の傾向から、しきい値を超える可能性のあるサービスを検知(傾向監視)

SLOなどの具体的な指標をしきい値とし、これに基づいてサービス性能の傾向をリアルタイムに分析。直近の状態(傾向)から、将来しきい値を超えそうな状態を事前に検知して警告を通知します。
傾向として示す直線は、直近の測定値を基に近似直線を用いて算出します。近似対象として用いる測定値の時間や、しきい値超えまでの時間は、サービスに合わせた調整が可能です。

いつもと違うサービス状態の変化を検知(外れ値検知)

過去の性能情報から基準値となるベースラインを算出して、現在の測定値が正常範囲(ベースラインからの上限値・下限値)から外れた場合に「いつもと違う傾向」があると判断し、問題の予兆として検知(外れ値検知)します。
外れ値検知のためのしきい値を設定する必要はなく、正常範囲内から外れた場合にいつもと違う状態として警告を通知します。

いつも違うサービス状態の変化に相関関係を加えた検知(外れ値検知+相関関係)*

外れ値検知に過去の応答時間とスループットの相関関係を加えた性能監視ができます。たとえば、応答時間だけで判断した場合、通常のピーク時間帯以外に一時的にサービスにアクセスが集中すると「異常」として検知します。
しかし、時間帯に依存しない応答時間とスループットの相関関係を利用すると、過去の性能情報をもとに応答時間とスループットの相関関係が正常範囲内にある場合は「正常」と判断します。これによって、応答時間だけで判断するよりも予兆検知の精度を高めることができます。

* 外れ値検知+相関関係の検知は、サービス性能(平均応答時間、スループット)のみの対応です。

 

JP1製品の資料請求/お問い合わせ Webからのお問い合わせ ご購入の検討、ご質問、資料請求などはこちらから HMCC休業日一覧(新規ウィンドウを開く) 個人情報保護ポリシー(新規ウィンドウを開く)