本文へジャンプ

Hitachi

日立アドバンストサーバ HA8500/9000Vシリーズ

「形あるものはいずれ壊れる」といいますがサーバも例外ではありません。しかし、事前に障害もしくは障害の予兆を検知できれば、その被害は最小限におさえることができます。
図1は、HP-UXシステムの標準的なイベント監視システムの構成です。統合管理ソフトウェアのJP1やHP Software (旧HP OpenView)を用いて、複数サーバの障害を監視・通知しています。その統合管理ソフトウェアに対してハードウェア障害情報(SNMPトラップ*、 syslog等)などを提供する役割をEMS(Event Monitoring Service)が担っています。 今回は、ハードウェアに1番近いところにあるEMSについてご紹介します。

  • * SNMPトラップ:サーバやネットワーク機器に対し何らかのイベント(障害等)が発生したときに、SNMPマネージャにトラップを送信します。

画像 JP1、OpenViewの監視方法
図1 JP1、OpenViewの監視方法

EMSとは

EMSはOSに標準インストールされている障害監視のソフトウェアで様々な障害のイベント(CPU障害・FAN障害等のハードウェア障害)を検知することができます。
以下にEMSの簡単なご紹介を致します。

画像 EMSの構成
図2. EMSの構成

表1. EMSの通信方法
通知方法 機能概要
EMAIL 指定した宛先に電子メールで通知する。
TEXTLOG 指定されたファイル(/var/opt/resmon/log/event.log)*に情報を格納する。
SNMP SNMPトラップを介して"Network Node Manager"などのアプリケーションにメッセージを送信する。
CONSOLE システムコンソールに直接情報を出力する。
TCP、UDP 指定されたターゲットホストおよびポートにメッセージを送信する。ソケットインタフェースを介して各種プログラムに直接メッセージを送信する。
OPC opcmsgデーモンを介して、IT/Operationにメッセージを送信する。
SYSLOG システムログ(/var/adm/syslog/syslog.log)に情報を出力する。
Serviceguard EMSを介して、ディスクのステータスやシステムリソースを監視して、 パッケージをフェイルオーバさせることができる。
ASSIST 「EMS連携ソフトウェア」によって障害を検知、ASSISTセンタへ自動通報
  • * 監視リソースに何が起きているのか、詳しい情報を調べるときは、『event.log』で参照することができます。

EMS HWモニタ

先に紹介しました2種類の監視モニタの内、まずはEMS HWモニタについて説明します。EMS HWモニタは、EMSフレームワークと連動してディスク装置、テープ装置、アダプタ、メモリ等のハードウェアリソースを監視します。モニタは、障害や異常イベントを検出すると、原因および対応を含むメッセージを生成します。このメッセージは、ハードウェア障害によるダウンを防いだり、ダウン時間を短くしたりするために役立ちます。なお、日立ではお客様に安定したシステムの稼動を実現していただくためにEMS HWモニタをHA8500/9000Vサーバに無償でプレインストールして出荷しています。

キャプションを入れてください。
障害種別 障害例 障害検知手段 通知方法
MPログ* Attention LED* EMS EMS HWモニタ Event #
システム障害 HPMC発生によるOSパニック × - -
MP障害 GSP(MP)無応答 × × Core Hardware Monitor 32
CPU障害 キャッシュ訂正障害 × × CMC Monitor 100601
キャッシュ訂正障害数閾値オーバによるCPU縮退 × × LPMC Monitor 100701
メモリ障害 1bit訂正障害 × × Memory Monitor 3000
1bit訂正障害数閾値オーバによるメモリ縮退 × Memory Monitor 1000
電源障害 電源ユニット故障 Core Hardware Monitor 16
FAN障害 FAN故障 Chassis Hardware Monitor 1418
温度異常 入気温度異常 Chassis Hardware Monitor 1256
ディスク障害 ディスクドライブがコントローラからのコマンドに応答せず × Disk Monitor 3
SCSIアダプタ障害 SCSIコントローラとSCSIデバイス間の通信不良によるタイムアウト × SCSI Card Monitor 101051
ファイバチャンネルアダプタ障害 アダプタ上のコントローラがアダプタ上の内部データパス上でパリティエラーを検出 × Fibre Channel Adapters Monitor 3
システムボードのバッテリ障害 システムボード用のバッテリがなくなった場合 × × Core Hardware Monitor 26
MP用のバッテリ障害 MP用のバッテリがなくなった場合 × × Chassis Hardware Monitor 1352

障害検知手段の○は検知可能を示し、×は未対応を示しています。

  • * MPログ:マネージメントプロセッサーにアクセスして、参照できるログを指します。
  • * Attention LED:フロントパネル部にある、異常があると点灯・点滅するLEDのことを指します。なお、エントリモデルの診断パネルは含みません。

EMSはOS上で動作するため、OSパニック*等のシステム障害は検出できませんが、MPやアテンションLEDだけでは検知できない各種のハードウェア障害を迅速に検出することが可能となります。そのため、EMS HWモニタを使用することにより、システムの可用性を大きく向上することができます。
次に、もう1つの監視モニタであるEMS HAモニタについて説明します。

  • * OSに致命的なエラーが発生し、処理が停止すること。

EMS HAモニタ

EMS HWモニタが、ハードウェアリソースを監視するのに対して、EMS HAモニタは、OSやミドルウェアなどのソフトウェア環境を監視します。ディスクのミラーリング、LANを介した通信、ファイルシステムの残容量などの状態を監視し、イベントとして通知します。
Serviceguardなどと連携することによって、障害や障害の前兆となる状態が発生しても、業務サービスを継続することができます。なお、EMS HAモニタは有償です。別途購入してください。

EMS HAモニタの詳細はこちらを参照願います。

EMSと統合管理ソフトウェアの導入の検討

ここまで、EMSについて説明してきましたが、EMSでは単独でも監視することができます。どういった場合に、統合管理ソフトウェアと連携した方がいいか、EMS単独で使用した方がいいのかの判断基準について説明します。
統合管理ソフトウェアはEMSの情報を自動で収集する機能と一元管理機能を持っているので複数のサーバの統合管理に適しています。
しかし、少数またはシングルシステムで使用されるサーバなど統合管理機能が必要ない場合はEMSだけを使用することでも障害管理ができます。この場合、先に説明したとおり、EMSは無償(EMS HAモニタを除く)のため、ソフトウェアの追加投資は必要ありません。
このようにシステム構成や運用により統合管理ソフトウェアと連携したりEMS単独で使ったり選択していただくことが可能です。

画像 EMSと統合管理ソフトウェアの使い分け
図3. EMSと統合管理ソフトウェアの使い分け

EMSを使用した障害監視例

それでは、HP-UXシステムでCPU障害が発生した場合を例に、EMSがシステム管理者へ通知するまでどのようなフローになっているのか説明します。

画像 ハードウェア障害時の挙動
図4. ハードウェア障害時の挙動

CPUに障害が発生すると、ハードウェアからMPへ障害情報を通知します((1))。
MPは、イベントをログエリアに記録します。定期的にログを監視している監視モニタが障害情報を検知するか((2))、あるいは、HP-UX上のドライバが障害を検知すると((3))、EMSフレームワーク(モニタ、ドライバとアプリケーション間のインタフェースを提供するプログラム)を介して((4))設定された通知方法でJP1を介して通知または、直接管理者へ通知((5))されます。さらに自動通報でASSISTセンタ*へ通知されます((6))。
これらにより、障害に対する迅速な保守対応が可能となりダウンタイムを減らすことができます。

次ページでは、上記で説明した直接管理者へ通知方法の一例として E-Mailでの通知設定方法をご紹介いたします。

  • * 遠隔保守支援システム『ASSIST』:EMSと連携するEMS連携ソフトウェアによって障害を検知します。EMSメッセージから障害コードを作成し、障害解析に必要なログ情報などを収集すると、遠隔保守用装置がASSISTセンタへ自動通報され、保守サービス拠点に展開されます。
  • * 本記事は、掲載時点の情報です。製品名称等、現時点の情報と異なる場合があります。

2ページ中1ページ