ページの本文へ

Hitachi

タイトルとURLをコピー

企業の業務システムをクラウド上で構築する動きが加速しています。企業のシステムをまとめて監視・管理する運用部門では、さまざまな業務システムから届く大量のメッセージを確認し、緊急度の判断や発生元システムの特定を行い、該当システムの担当者へのエスカレーションを的確に行う必要があります。監視を必要とする業務システムが増加すると、監視オペレーターの負担も増えてしまいます。障害の把握・確認の遅れや、監視漏れなどによる初動の遅れは、システムの稼働率低下につながるため、重要なシステムであるほどシステム監視の重要性も高まります。

システム監視の快適運用で基幹システムの安定稼働を実現

基幹システムのクラウド移行や監視を必要とする業務システムの増加により、運用部門の作業負担はますます大きくなっているのが、基幹システム監視の現状と言えるでしょう。

基幹システム監視の課題

Amazon Web Services上に構築した業務システムは、Amazon CloudWatch を利用することで監視できます。
監視オペレーターはAmazon CloudWatch で複数のシステムを監視し、大量のメッセージに対処することでシステムの安定稼働を維持します。監視対象が基幹システムや重要なサービスに直結する業務システムであれば、100パーセントに近い稼働率が求められます。システム停止を回避するには、重大障害につながる予兆となるメッセージを見逃さないようにしなければなりません。
基幹システムの監視・運用で必要とされる要件をAmazon CloudWatch だけで満たせない場合は、別の監視手段と組み合わせる、などの検討も必要となります。

メッセージの内容から対応する手順の対処を実施

メッセージの内容から対応する手順の対処を実施

  • 大量の業務マニュアルから対応手順を探し出すのが面倒だ
  • 通知する連絡先の特定に手間が掛かる
  • 初動対応までに時間が掛かる

発生元ホストから業務システムを特定し、関連メッセージを確認

発生元ホストから業務システムを特定し、関連メッセージを確認

  • どの業務システムで発生しているメッセージなのか判別が難しい
  • 問題が発生した業務システムで他に発生しているメッセージ(エラー)がないかの確認に時間が掛かる

対応が必要なメッセージの把握漏れ、対処漏れがないかの確認

対応が必要なメッセージの把握漏れ、対処漏れがないかの確認

  • メッセージが大量にあるため、直感的に緊急度や重要度の判断が難しい
  • 対処済みかどうかがわからない

基幹システムの監視を快適にするには

クラウド基盤およびその基盤上のシステムを監視するAmazon CloudWatchと、重要システムや基幹システムの監視ノウハウを提供するJP1 Cloud Serviceを組み合わせることで、常時安定稼働を期待されるシステムの監視業務を効率良く行えます。

稼働情報の収集,ログ、各種メトリックの収集,システム監視の効率化,大量のメッセージから緊急度の高いイベントを識別,メッセージから発生元業務システムを特定,迅速・適切な初動対応,AIによる省力化,マニュアル自動抽出,エスカレーション要否判断,運用実績の蓄積と自動対処

基幹システムの監視を快適にするポイント

基幹システムの監視を快適にする4つのポイントを、詳しくご紹介します。

Point1

大量のメッセージから緊急度の高いイベントを識別

業務システムの異常にいち早く対処するには、大量のメッセージから緊急度を判断し、効率良く対処することが重要です。 JP1 Cloud Serviceは、Amazon CloudWatch Logsから必要なログ情報だけを抽出し、メッセージの内容から緊急度と重大度を自動で判定します。自動判定されたログ情報は、JP1 Cloud Serviceのイベント情報として重要度に応じた色付けで画面表示されるため、監視オペレーターは監視対象の異変をひと目で把握し、対処の優先度を直感的に判断できるようになります。

また、予期しない大量のイベント(イベントストーム)が発生した場合は、ストームの発生を自動で検知してホスト名やログファイルの単位などで集約表示することで、他の重要イベントが埋もれてしまうのを防ぎます。

JP1 Cloud Serviceでの運用は、監視オペレーターによる緊急度、重大度の素早い判別と、対応漏れの防止に役立ちます。

大量のメッセージから緊急度の高いイベントを識別

*1 クラウド安定稼働ソリューションで提供するツールです。
*2 JP1/Integrated Management 2も使用可能です。         

Point2

メッセージから発生元業務システムを特定

JP1 Cloud Serviceは、業務システムから発生したさまざまなイベントのメッセージをわかりやすいメッセージに変換して画面に表示します。監視オペレーターは、表示されたメッセージから発生元業務システムを特定し、影響範囲を素早く把握できるようになります。

また、担当する業務システムで発生したイベントだけを表示することもできるので、監視オペレーターは担当業務に必要なイベントを確認しやすくなります。これにより監視オペレーターの作業負担を軽減し、さらに効率的に監視・対処することが可能になります。

メッセージから発生元業務システムを特定

* JP1/Integrated Management 2も使用可能です。

Point3

迅速・適切な初動対応

初動対応を迅速に行うには、対処の自動化や監視オペレーターが行う対処の効率化が不可欠です。
例えば、イベントごとに異なる関係者へのメール通知や発生時点の情報を保管するためのログ取得などの初動対応は JP1 Cloud Serviceによって自動化できます。

また、ビジネスやサービスへの影響を最小限にするための判断が必要になるなど、単純に対処を自動化できない場合には、蓄積した運用ルールやナレッジに基づいてJP1 Cloud Serviceから提案される対処案を活用することもできます。監視オペレーターは、画面に提示された提案を選択し実行することで、対処を効率化できます。
このように、対処の自動化や提示される対処案の選択・実行によって、迅速・確実な初動対応を行うことができます。

迅速・適切な初動対応

* JP1/Integrated Management 2も使用可能です。

Point4

AIによる省力化

IT運用最適化サービス AI for IT Operations が提供するAIを利用すると、監視オペレーターは業務システムから発行される大量のイベントの一つ一つに対応する必要はなくなります。AIが運用マニュアルの確認および該当箇所の抽出を行い、どのように対処するかを判断します。イベントが発生した時間帯や後続イベントの発生状況に応じて対処内容が変化する場合でも、AIが適切に判断して、インシデント登録、通報、ログ採取などの一次対処を自動実行します。監視オペレーターはAIによる一次対処の実行結果を確認するだけなので、作業負担が大幅に軽減されます。

JP1 Cloud Service とAIの連携により、運用実績に応じたナレッジが蓄積され、さらなる運用の省力化が可能になります。

AIによる省力化

*1 JP1/Integrated Management 2も使用可能です。
*2 JP1/Automatic Operationとの連携が必要です。  

まとめ

クラウド基盤およびその基盤上の業務システムの監視運用では、運用部門の対応を効率化する監視ツールの利用が重要になります。 Amazon Web Services とJP1 Cloud Serviceを組み合わせれば、「システム監視の効率化」、「AIによる省力化」を可能にする高度で快適な監視運用で、基幹システムの安定稼働を実現できます。

基幹システムの監視を快適にする、JP1 Cloud Serviceについての機能解説資料をご用意しました。詳しく知りたい方は、以下の資料ダウンロードからお申し込みください。

クラウド環境とオンプレミス環境が混在するシステム全体の安定稼働に必要な監視運用の効率向上についてご紹介しています。ハイブリットクラウド環境でのシステム安定稼働について詳しく知りたい方はこちらもご参照ください。

システムの監視運用にAIを適用し、イベント対処を省力化する運用自律化ソリューションについてご紹介しています。システム監視のAI適用について詳しく知りたい方はこちらもご参照ください。

クラウド活用によるシステムの運用課題「業務の自動実行」「構成・稼働状況の統合監視」「システム運用作業の標準化・自動化」の解決ポイントについて説明しています。解決ポイントについて詳しく知りたい方はこちらもご参照ください。

システムの統合的な運用管理に必要なJP1の機能を、高信頼なクラウドサービスで提供します。JP1が提供するクラウドサービスについて、詳しく知りたい方はこちらもご参照ください。

JP1 Cloud Serviceと同様に、オンプレミス環境、クラウド環境、それぞれの監視ツールが管理する情報を集約して、システム全体を可視化し、問題発生や影響範囲の確認を迅速に行うことができる、統合管理製品についてご紹介しています。統合管理製品について、詳しく知りたい方はこちらもご参照ください。