言葉の成り立ちで言えば「オブザーバビリティ:Observability」とは、「Observe:観察する」と「Ability:能力」を組み合わせた造語。日本語では、「可観測性」や「観察する能力」などと訳されます。
IT運用管理におけるオブザーバビリティとは、「取得したデータをもとに、システムの状態を推測・把握する能力、取り組み、それを実現する手法」という意味合いで用いられています。
近頃このオブザーバビリティという概念が注目されている理由は、クラウドやコンテナなどあらかじめ設定しづらい、複雑で動的にスケールするようなサービスを監視するには、旧来のモニタリングでは対応が難しくなってきたためです。
続いて、オブザーバビリティは旧来のモニタリングと何が違い、なぜ必要となって来ているのかを解説します。
旧来のモニタリングは、一般的に以下のような運用になります。
しかし、近年利用が拡大しているクラウドネイティブなシステムにおいては、これらの前提が大きく異なっています。
クラウドネイティブ型システムの大きな特徴は、特定の機能を提供する複数のマイクロサービスを組み合わせることで、1つのアプリケーションを構築するという「分散システム」の形をとります。
その理由は、クラウドネイティブな「分散システム」は、従来の「モノリシック型」のアプリケーションに比べて、機能の追加や変更、スケーラビリティや可用性の確保が容易になるなど、開発と運用の両面で、大きなアドバンテージがあるためです。
そのため、データドリブンな経営や事業運営、DX(デジタルトランスフォーメーション)をスピーディに推進するには、「モノリシック型」から「クラウドネイティブな分散システム」への移行が重要だと言われているのです。
ところが、クラウドネイティブな分散システムは前述のアドバンテージの反面、「アプリケーションに障害が発生した場合、その原因がどこにあるのかがわかりにくくなる」という新たな問題を引き起こします。
従来型の物理サーバーや仮想マシンでアプリケーションを稼働させる構成では、アプリケーションのスローダウンや異常停止などが発生した際、事象や原因にある程度パターンがあり、原因特定作業も(工数はかかり簡単ではありませんが)比較的シンプルでした。これは、アプリケーションなどの構成要素が明確で、構成が変化することも少ないためです。
ところが、「クラウドネイティブな分散システム」はその名が示す通り、サービスが稼働しているインフラは多岐にわたって分散しています。そのため、問題が発生した際に内部で何が起きているのか把握しようとすると、アプリケーションを構成するマイクロサービスの動きをすべて追いかける必要があり、対象が数百、数千になることも珍しくありません。さらに、どのインフラでどのアプリケーションが稼働しているのか、動的に変化することも少なくありません。
この問題を解消するために注目を浴びているのが、「オブザーバビリティ」なのです。
オブザーバビリティによるメリットはさまざまありますが、シンプルにまとめると下記の2点です。
そのため、オブザーバビリティはモニタリングの上位概念であるように誤解されがちですが、それは正しくありません。
従来のモニタリングは、サーバーのCPUやメモリを基準としたメトリクスの異常・Webアクセスの失敗・ログに出力されるエラーなど、「既知の領域で何かが起きた時に異常を検知する」観点でこれからも必要です。
一方、オブザーバビリティは、サービス利用者のUX(ユーザ体験)を意識して未知の領域も含めたサービス全体を可視化することにより「早期に異変に気づき、それがなぜ起きたのかを解析、UX(ユーザ体験)を損ねる事態が生じる前に対処する」という観点で必要になってきているのです。
次に、オブザーバビリティを高めるために必要なアクションとデータについて解説します。
オブザーバビリティを高めるためには、大きく「データの収集」、「データの分析」、「データの可視化」という3つのアクションが必要です。
このうち収集データにおいては、メトリクス・ログ・トレースが「オブザーバビリティの3つの柱」と呼ばれています。
上記の3つの柱の他に、プロファイラやダンプファイルを活用する場合もあります。
一般的なオブザーバビリティツールは、システム状況のデータをリアルタイムで収集する機能、データ分析機能、そしてその分析結果を可視化する機能を持ちます。それによって複雑で動的にスケールするような環境においても、いつ、なにが、どこで起こっているのかを把握できるようになります。
しかし、これを運用に落とし込むのは容易ではありません。
なぜなら、把握できたとしても「ビジネスやその他サービスにどのような影響を及ぼすのか」そして「どのような対処・対策・回復策を講じる必要があるのか」はデータを見ただけでは判断が難しく、結果として属人的なナレッジや設計書、運用ドキュメントに頼るといった人が介在する場面が残ります。
そしてそのことが、当初期待していた迅速な対応を妨げる結果につながるのです。
そこでJP1では、クラウドネイティブに対応した監視に加え、システムの構成や関係性を統合管理し、収集したデータからシステムの健全性を把握することで、企業のビジネスやシステムにどのような影響を与えるのかまでを観測可能にすることが重要であると考え、Version 13とJP1 Cloud Serviceで機能を強化。企業や組織における運用面まで配慮した、実行可能なオブザーバビリティを提供します。
以下、その主なポイントをご紹介します。
JP1のオブザーバビリティは、データの可視化により事前にパターンを検知するプロアクティブ検知、迅速な問題解決を実現できます。
下記の特長3でご紹介するJP1の新たなダッシュボードでは、メモリやCPUといったシステム情報だけに限らず、提供している各種サービスなどのビジネス情報とシステム情報をリアルタイムで関連付けて表示できます。データの可視化では、対象のシステム障害がビジネスへ与える影響を考慮し、重要度の高いものから優先的に可視化します。
これにより、システムで発生する事象およびさまざまなデータとその関連性を統合管理し、リアルタイムに現状把握、また、状況に応じた対処提案や自動アクションによって、人の介在を最小限にしながら、迅速なシステム回復を支援します。
JP1のオブザーバビリティは、オンプレミス、マルチクラウドなどのハイブリッド環境をまとめて監視可能。仮想化や冗長化などを含め、進化・多様化する環境の全体構成を一元管理できるほか、さまざまな環境の稼働状況・パフォーマンスの可視化により、迅速な障害対応を実現し、ビジネスインフラの安定稼働を支援します。
さらに、クラウドネイティブ環境においても、イベント情報の監視に加え、
などの監視が強化されています。
また、パフォーマンス監視については1ツールでシステムの稼働情報も取得できるようになります。もちろん、既存の監視ツールとの連携も可能です。
さらに、JP1 Cloud Serviceの新サービスである通報管理との連携により、メール通知だけでなく、電話、チャットなどへの通知も可能です。
JP1は、収集したITリソース情報の可視化と、その情報をもとにITシステムの健全性を可視化する統合オペレーションビューアーとしてのダッシュボード画面を新規に提供します。
ダッシュボードでは取得してきたITリソースなどの情報をもとに、複雑化したシステムの健全性をリアルタイムで把握可能です。例えば、システム上でエラーイベントが発生していても、実際のサービスには影響がでていないということが画面から一目で判断できるため、対処のタイミングや作業の優先順位を判断する際の一助となります。
また、イベント管理の観点においても、各システムやサーバーごとのイベント発生傾向や対処状況を可視化することで、システム品質や運用効率など、システム改善に役立つ情報をリアルタイムに把握することができます。
いかがでしょうか。この記事では、ITシステム管理においてオブザーバビリティが注目されている理由とそのメリット、そして実行手段として、JP1の機能強化によって提供するオブザーバビリティについて解説しました。まとめると、以下のようになります。
「取得したデータをもとに、システムの状態を推測・把握する指標、取り組み、それを実現する手法」
クラウドネイティブな環境に対応し、「早期に異変に気づき、それがなぜ起きたのかを解析、UX(ユーザ体験)を損ねる事態が生じる前に対処する」という観点で必要になってきているため
「データの収集」、「データの分析」、「データの可視化」という3つのアクションが必要
得られた結果からビジネスやその他サービスへの影響と対処方法を判断することは難しく、人の介在が必要になるなど、運用に落とし込むのが容易ではない
クラウドネイティブからオンプレミスまで、システムの構成や関係性を統合管理し、収集したデータからシステムの健全性を把握することで、企業のビジネスやシステムにどのような影響を与えるのかまでを観測可能にする
JP1は、今回ご紹介した「複雑化したシステムを管理するオブザーバビリティと障害時の迅速な対処」について、新たに機能強化した以下の製品・サービスをご提供しています。
JP1のオブザーバビリティについてもっと詳しくお知りになりたい方は、ぜひお気軽に、下記お問い合わせフォームにてご相談ください。