Intelligent Monitoring | インフラストラクチャ管理
仮想環境やクラウドの利用で複雑化するIT基盤の管理・運用を効率化したい
JP1/Operations Analyticsで採用している特許技術が、このたび公益社団法人 発明協会主催の平成30年度関東地方発明表彰において「特許庁長官賞」を受賞しました。
JP1/Operations Analyticsは、仮想環境やクラウドの利用によって複雑化するIT基盤(インフラストラクチャ)の管理・運用を効率化する製品です。
仮想環境やクラウドの活用はコスト削減を可能にする一方、IT基盤がより複雑化し、管理者は幅広い管理対象の知識とその障害対応スキルを求められるようになっています。JP1/Operations Analyticsは、業務システムで利用している仮想マシンやコンテナ、サーバ、スイッチ、ストレージなどのIT基盤の構成情報を自動収集し、アプリケーションと関連付けて可視化できます。また、システムの稼働状況の報告やリソースの配置変更の検討に役立つ情報をまとめたレポートの作成を支援します。
IT基盤の構成と業務システムとの関係から、障害発生箇所だけでなく、これから障害が発生しそうな箇所とその影響を受ける可能性がある業務システムを把握できるため、関係者への一報を迅速に行えます。また、障害要因の特定に必要な情報がわかりやすく表示されるため、高いスキルやノウハウが必要となる調査作業を効率よく行えます。さらに、ボトルネックを解消するための対処候補や確実度なども提示されるため、管理者はどう対処すべきかを容易に判断でき、障害復旧までの時間を大幅に短縮できます。
業務システムで利用している仮想マシンやコンテナ、サーバ、スイッチ、ストレージやデータベースといった、仮想環境やクラウドの利用によって複雑化するIT基盤の構成情報を自動収集します。収集した情報から各構成要素の接続関係を分析し、アプリケーションのイベント発生状況、IT基盤の稼働状況などと関連付けて可視化するため、管理者は、仮想マシンやコンテナ、サーバ、スイッチ、ストレージの関連性だけでなく、アプリケーションが動作しているホストやアプリケーション間の関連性も含めたシステム全体の構成情報を容易に把握できます。
レポート作成支援コンテンツ*1の利用により、収集した構成情報や性能情報を出力できるため、システムの稼働状況報告やリソースの配置検討のためのレポートを容易に作成できます。
業務システムの重要度別に、エラーの発生有無、サーバやストレージで発生している警告数や警告の内容、システムリソースの状態、イベントの発生傾向など、システム全体の稼働状況を俯瞰(ふかん)できます。IT基盤からの視点だけでなく、業務システムからの視点で顕在化している障害の発生状況を把握できるため、障害対応の優先順位や緊急度を的確に判断できます。ダッシュボード画面は利用者ごとにカスタマイズできるため、多数のレポートウィジェットの中から必要なものだけを選択して見やすく配置できます。
障害や警告が発生している箇所には問題の発生を示すアイコンが表示されます。問題が発生している箇所の1つを選択すると、接続している仮想マシンやコンテナ、サーバなどがハイライトで表示されるため、他の問題発生箇所との関連性を把握するのが簡単です。たとえば、障害が発生している複数の仮想マシンで、共有リソースの競合が発生していると疑われる場合、その共有リソースの選択により、該当する仮想マシンがハイライト表示されれば、その共有リソースがボトルネック(候補)だと考えられます。また、アプリケーションも可視化されるため、ジョブの実行遅延、DBのキャッシュ不足、サーバのI/O多発など複数のイベントが発生した場合、それらのイベントが関連する事象なのかどうかを確認することができます。さらに、ボトルネックと考えられるリソースを使用している業務システムやサーバなどを一覧で確認できるため、管理者は、すでに障害や警告が発生している業務システムだけでなく、障害がまだ顕在化していない、これから障害になるおそれがある業務システムも把握できます。担当者の連絡先など任意の情報を業務システムの関連情報として登録しておくことができるため、緊急時でも迅速に関係者へ一報を入れることができます。
障害要因の特定に必要な情報をわかりやすく表示するため、高いスキルやノウハウが必要となる調査・分析作業を効率よく行えます。
障害が発生した際、アプリケーションとIT基盤のリソースに関連性があるかどうかを容易に検証できます。JP1/Integrated Management 2 が管理するイベント(JP1イベント)がアプリケーションごとに時系列で表示されるため、管理者は、どのような事象がどのアプリケーションで何件発生したか確認することが容易です。また、選択したイベントに関連するリソースの稼働性能データがグラフ表示されるため、イベントが発生した時間帯に性能が劣化したリソースがないか、視覚的に探すことができます。
ボトルネックと考えられるリソースの稼働性能データと、障害が発生しているリソースの稼働性能データを並べ、データの推移や傾向を比較しながら相関性があるかどうかを検証できます。真のボトルネックはどれか、1つずつ検証しながらボトルネック候補を絞り込むことができます。
ボトルネックと判断したリソースの稼働性能データと、そのボトルネックのリソースに影響を与えたと考えられるリソース(ノイジーネイバー)が自動で表示されるため、ボトルネックを引き起こした要因が何か、手間をかけずに追究できます。
ボトルネックと判断したリソースの稼働性能データと、システムの構成変更が同じ時間軸で表示されるため、障害と構成変更との因果関係を容易に確認できます。たとえば、物理サーバのCPU使用率が急に高くなった場合、直前に仮想マシンの増加や移動などが起こっていなかったかどうかなど、構成変更による影響の有無を視覚的に確認することができます。
凡例)○:検知可能 −:非対象
対象となる構成要素 | 構成変更の種別 | |||||
---|---|---|---|---|---|---|
追加 Add |
削除 Remove |
変更 Change |
移動 | |||
Move In | Move Out | |||||
アプリケーション | JP1/AJS3などのホスト | ○ | ○ | − | − | − |
コンテナ | クラスタ、ノード、ポッド | ○ | ○ | − | − | − |
サーバ | CPU、 メモリー、NIC、HBA、ディスク、ファイルシステム | ○ | ○ | ○ | − | − |
仮想マシン | ○ | ○ | ○ | ○ | ○ | |
仮想ディスク、仮想NIC | ○ | ○ | − | − | − | |
スイッチ | IPポート、FCポート | ○ | ○ | ○ | − | − |
ストレージ | ボリューム | ○ | ○ | ○ | − | − |
クラウド | コンピューティングインスタンス | ○ | ○ | ○ | − | − |
ネットワーキングインスタンス | ○ | ○ | ○ | − | − | |
ストレージインスタンス | ○ | ○ | ○ | − | − |
JP1/AJS3 : JP1/Automatic Job Management System 3
NIC : Network Interface Card
HBA : Host Bus Adapter
ボトルネックとなっているリソースの稼働状況、問題発生日時、対処後の性能目標値をもとに、ボトルネックを解消するための対処方法の選択肢を表示します。各対処方法の確実度と、対処を実行することによる影響内容もあわせて提示されるため、管理者はどの方法をとるべきかを容易に判断でき、障害復旧までの時間を大幅に短縮できます。
復旧作業手順を示したメールの送信や問題管理チケットの発行など、復旧に必要なアクションをあらかじめ登録しておくことができるため、いざというときにも慌てずに必要な作業を確実に実施できます。たとえば、運用手順を可視化するJP1/Navigation Platformと連携してオペレーターに復旧作業を指示することもできます。オペレーターはフローチャートやガイダンスで示される手順に沿って作業すればよいため、スキルやノウハウに依存しない復旧作業が可能になります。また、恒久的な対策が必要な場合は、問い合わせや障害などの案件管理を支援するJP1/Service Supportに問題管理チケットを登録することも可能です。問題が解決されるまで、登録した問題管理チケットで対応状況や進捗状況を管理できるため、対応遅れや対応漏れの防止に役立ちます。