本文へジャンプ

ミドルウェア

uVALUE 実業×IT

Hitachi

サービスレベルを維持・向上する

業務システムのリソース、プロセスなどの監視だけでは判断できないサービス利用者視点の監視・評価機能を提供。
サービス利用者が体感している性能など、SLO(サービスの評価指標)に基づくサービスレベルの定期的評価に加え、日々の問題を未然に防ぐサイレント障害検知などのリアルタイム監視により、サービスレベルの維持・向上を支援します。

サービス全体の状況が一目瞭然

ホーム画面を見るだけで、監視対象サービス全体の状況を把握可能です。サービスグループごとのサマリ状況や要注意サービスのランキング、発生したイベントを確認できるほか、エラー・警告・正常に色分けして表示されるので、問題が発生していればすぐに認識できます。

利用者が実際にアクセスしているデータを計測

サービス利用者が実際にアクセスしているデータをキャプチャーして、サービスの応答時間を計測するため、サービス利用者が体感している性能をリアルタイムに監視できます。また、稼働中の業務システムを変更する必要がないため、既存のシステムに影響を与えることなくスムーズに監視を始められます。


画像を拡大する

サービスレベルのリアルタイム監視

サービス利用者が体感している性能をSLOとして監視できます。サービス利用者が実際にアクセスしているデータをキャプチャーしてサービスの応答時間を計測し、リアルタイム監視画面でサービスごとに状態が正常かどうかを色分けしてわかりやすく表示します。
また、収集したデータ(応答時間、スループット、エラー率)を画面上でグラフ表示するため、状態の変化を読み取りやすく、しきい値超過の発生もひと目でわかります。

リアルタイム監視画面

また、サービスの中から特定の処理をWebトランザクションとして監視できます。Webトランザクション単位に絞って監視することによって、より詳細な性能監視が可能です。

サービスレベルの定期評価レポート(評価レポート)

レポート画面では、指定した月の応答時間やスループットなどの平均値、SLO遵守率、前月比を確認できます。また、その月の1日ごとの最大値、最小値、平均値のグラフ表示やCSVファイルへの出力が可能で、サービスレベル管理の運用レポート作成やSLOの見直しなどに利用できます。

<SLO遵守率とは>

  • SLOをしきい値とした場合に、しきい値を遵守できている時間の割合を自動計算したもの。

サービスレベルの定期評価レポート画面

応答時間による外れ値検知方法

「今」を分析してサイレント障害をリアルタイムに検知

しきい値超過の検知だけでなく、しきい値超過が発生する前のサイレント障害をリアルタイムに検知できます。過去の性能情報(ベースラインと上限値・下限値)から算出した正常範囲から現在の測定値が外れた場合にいつもと違う傾向があると判断し、問題の予兆として検知(外れ値検知)します。
外れ値検知のためのしきい値を設定する必要はなく、正常範囲より上方向に外れても下方向に外れても検知。しきい値を超過する前のサイレント障害をリアルタイムに検知することで、サービス利用者がサービスの低下に気づく前に問題に対処でき、快適なサービスを継続して提供できます。

<サイレント障害とは>

  • エラーメッセージ出力やしきい値超過などの明らかな現象が発生する以前の、平常時とは異なる、放置しておくと障害に発展してしまう可能性のある状態。

より正確な予兆検知

応答時間とスループットの相関関係を加味した性能監視ができます。たとえば、応答時間だけで判断した場合、通常のピーク時間帯以外に一時的にサービスにアクセスが集中すると「異常」として検知しますが、時間帯に依存しない応答時間とスループットの相関関係を利用することにより「正常」と判断。応答時間だけで判断するよりも正確な状態が把握できます。

将来のしきい値超えを予測

しきい値監視を行う項目(応答時間、スループット)の時系列データから傾向を分析し、将来、起こる可能性があるしきい値超過を予測できます。また、設定時間後にしきい値超えが発生すると検知した場合は、ホーム画面にイベントを表示します。

ベースラインの生成

ベースラインは収集した性能情報を蓄積して自動生成します。実際のお客さまシステムの性能情報からベースラインを生成し、それに基づいて予兆検知を行うため、実態にあった監視を実現できます。

監視対象サービスの登録(URLの自動検出)

サービスレベル管理のためには、まず、監視対象となるサービスの設定が必要ですが、サービス管理者がURLを入力する必要はありません。サービス管理者が実際にサービスを利用すると、 [JP1/IT Service Level Management]がアクセス先のURLを自動検出して表示するため、サービス管理者は選択するだけで監視対象サービスとして登録できます。
サービス登録時の入力ミスを防ぎ、サービス管理者の負担を軽減できます。

SLOしきい値の設定

しきい値はあらかじめ初期値が設定されているため、設定しなくても運用を開始できます。お客さまの環境に合わせてカスタマイズすることもできます。

サービス管理者への自動通報

[統合コンソール:JP1/Integrated Management]を利用すると、サイレント障害の検知やしきい値超過、さらに将来のしきい値超過を予測した場合も、メールなどでサービス管理者に自動通報できます。サービス管理者が常に監視画面を見ている必要はありません。

問題調査の支援(調査の基点を自動表示)

監視項目の中から問題がありそうな監視項目の状態変化の起き始めを画面に自動表示します。調査の基点を表示することで、「どこから調査を始めればよいか、わからない」といった悩みが解消され、スムーズに調査を開始できます。
また、複数の監視項目を同じ時間軸でグラフ表示できるため、サービス管理者がグラフの時間軸を揃える必要がなく、効率的に調査を進めることができます。

問題調査画面

監視サーバ統合と監視範囲分離の両立

クラウド環境での監視運用

クラウド環境など監視サーバを1台に集約して複数の企業・部門(テナント)の監視運用を行う場合でも、各テナントの運用は従来通り、テナントごとに分かれていることが求められます。これを実現するためには、各テナントが相互に情報を参照できないように制御し、それぞれのシステムの独立性、セキュリティを保持することが重要です。JP1では、各テナントの管理者は自分の管理範囲のサービスやシステムのみを管理(設定または参照)できるようにし、他のテナントは管理できないように制限できます。
たとえば、データセンターで複数の企業(テナント)のサービスレベル管理やシステム管理を行う場合、データセンターの管理者はすべてのテナントを管理できますが、各テナントの管理者は自社の範囲だけ管理できて他のテナントの情報は設定・参照できない、という運用が可能です。これにより、テナント間の情報混在防止、各テナントの独立性、セキュリティを保持しながら、効率良く各テナントを管理できます。

クラウド環境での監視運用イメージ