本文へジャンプ

Hitachi
お問い合わせお問い合わせ

企業のITシステムに対する依存度が高まると共に、高可用性・高信頼性に対する要求も急速に高まりつつあります。ITシステムはかつてなかったほどの厳しい評価に晒されており、ダウンタイムを限りなくゼロに近づけることが求められています。このような高可用性・高信頼性の要求に対して長年にわたって取り組み、数々のシステムを提供しているのが日立です。

インテル® キャッシュ・セーフ・テクノロジー(ICST)

キャッシュ・セーフ・テクノロジーはインテル® Itanium® プロセッサーのキャッシュの信頼性向上技術です。
ECCで修正できないエラーが発生したキャッシュ・ラインに再書き込みを行い、エラー修正不可能なエラーであると判断すると、そのキャッシュ・ラインを無効にします。この機能により、プロセッサー障害が原因となるシステムダウンを回避することが可能になります。9100番台では、3次キャッシュのエラーのみが対象でしたが、最新のインテル® Itanium® プロセッサー9300番台では、新たに2次キャッシュのエラーも対象範囲となりました。

シングルシステム・ハイ・アベイラビリティの重要性
3次キャッシュの例

耐メモリー障害機能強化によるシステム稼動継続力の向上

インテル® Itanium® プロセッサー9300番台を搭載したHA8500では従来チップセット側に機能を有していたダ ブルチップスペアリング/チップスペアリング機能をプロセッサで実現、名称がそれぞれSDDC(Single Device Data Correction)/DDDC(Double Device Data Correction)と変わりました。

サーバ製品の大半はECC(Error Correction Code)メモリーを採用しています。ECCは64ビットのデータに対して8ビットの冗長ビットを付加することで、1ビットエラーの訂正と2ビットエラーの検出を可能にしています。ECCメモリーを導入することでソフトエラー(*2)によるシステムダウンの確率は低くなりますが、ハードエラーの発生時には 4ビットや8ビット(DRAMの1ワード)単位でデータが失われる可能性が高いので、ECCによるエラーの訂正や検出が不可能になります。すなわち、 DRAMチップが1個故障するとシステムがダウンしてしまいます。

そこで、各社のハイエンド/ミッドレンジサーバでは、チップスペアリングもしくはチップキルと呼ばれるエラー訂正技術が採用されています。
SDDCでは、データを1ビットずつ異なるDRAMに分散して保存し、1つのDRAMが故障しても「大量の1ビットエラー」として扱うことでECCによる訂正が可能になります。これはRAID構成によるハードディスクの冗長化に似たメカニズムです。ただし、2つのDRAMが故障するとやはりシステムダウンになります。

DDDCは、ECCのアルゴリズムに改良を加えたもので、2つのDRAMが故障してもシステムは稼働を継続します。この技術により、メモリー障害によるサーバ停止の発生を低減できます。

表1、図1にメモリーのエラー訂正技術をまとめます。

表1. メモリーのRAS機能比較
エラー訂正技術障害内容 SDDCなし SDDC DDDC
DRAM×1個故障 システムダウン 訂正 訂正
DRAM×2個故障 システムダウン システムダウン 訂正
DRAM×3個故障 システムダウン システムダウン システムダウン


図1. SDDC/DDDC

主要コンポーネントの冗長化

HA8500サーバでは、電源や冷却ファンといったサーバーの主要コンポーネントでのN+1冗長化を行っています。しかも、ホットプラグおよびホットスワップに対応し、故障発生の際にもサーバーを停止することなく交換可能です。また、PCIスロットもホットプラグに対応し、I/Oの信頼性向上も実現しています。