本文へジャンプ

ストレージソリューション

Hitachi

日立のストレージ信頼性への取り組み

「データ」は、企業の固有財産であり、万一にも損失した場合の影響は測り知れず、またその復旧はきわめて困難です。日立は、メインフレームの時代から、信頼性がストレージに求められる最重要課題であることを認識し、信頼性の向上に対して最大限の努力を継続してきております。
信頼性の確保には、特に上流工程、設計段階から品質の作りこみを行っていくことが重要と考えます。
ストレージを構成する数々のハードウェア、ソフトウェアに対しては、過去の障害に対して根本対策を実施し、フィードバックを行っており、高い品質・性能・機能を提供します。

図:信頼性への取り組み

高信頼性のつくりこみ:(1)二重化、多重化

システムの構成要素は二重化または多重化され、障害時にも処理を継続することができます。
下記は、Hitachi Universal Storage Platform Vの場合です。

  1. コントローラの多重化
    上位サーバとのインターフェースを制御するChannel Adapter(CHA)およびディスクドライブの制御を行うDisk Adapter(DKA)は多重化することができます。
  2. プロセッサの4重化
    CHAおよびDKAにはそれぞれ4つのプロセッサが搭載され、一つのプロセッサ障害時にも他で業務継続できます。
  3. キャッシュメモリ、シェアードメモリの二重化
    キャッシュメモリおよび、プロセッサ間で共有するシェアドメモリは二重化で管理
  4. ディスクドライブ(HDD)へのパスは二重化
  5. 電源の二重化(AC入力部の二重化含む)

図:二重化、多重化

高信頼性のつくりこみ:(2)データ破壊防止、非破壊チェック

  • キャッシュメモリは冗長化され、メモリのデータビット誤りの自動訂正(ECC)が行われます。
  • データ入力部から、ディスクドライブまでのデータパス全てを網羅するデータ保証コードの付加上位から入力されたデータには、データ保証コードが付けられ、データ入力部、処理部、キャッシュ、さらにディスクドライブ内部にも保存されます。各処理部では保証コードをチェックし、データの真正性を確実なものにします。特に日立では、LSI内部の論理処理でも隙間なく冗長性を維持し、データを保護する堅牢な作りになっています。

図:データ破壊防止、非破壊チェック

高信頼性のつくりこみ:(3)障害の予防

障害の予防は、次の3つのステップから行われます。

  • ディスクドライブの未使用領域を含む全てのディスクドライブ領域をオンラインでテストし、メディア特性劣化を検出するオンラインベリファイテスト機能
  • リトライ回数のしきい値管理により、劣化したドライブのデータをオンラインで自動的にスペアディスクに退避させるダイナミックスペアリング機能
  • 1ドライブ(RAID6では2ドライブまで)の故障時に、IO処理を行いながらスペアディスクにデータを回復させるコレクションコピー機能

図:障害の予防

ディスクドライブの信頼性

二重化、障害予防などで論理的なガードを掛けることはできますが、基本的な部位の信頼性が低ければシステムの全体の信頼性に影響を及ぼすことになります。
日立は基本部分の信頼性向上がシステムの信頼性向上の基本と考えます。
基幹部品ディスクドライブの信頼性確保では、全数の単品試験を行い、さらに装置に実装してエージング、ヒートランを行い、その信頼性を確実なものにします。
信頼性の評価については、統計的手法をベースとした独自のノウハウを使い、問題があった場合は、ロット全てを返品する厳しい対策を講じます。

図:ディスクドライブ

大容量ディスクドライブ(SATA)の信頼性向上施策

日立は、長年にわたるストレージビジネスの経験によりディスクドライブの取扱いのノウハウを蓄積しております。
大容量のSATAディスクは、データ処理装置用の高スペックのものを使用しており、さらに前記のような厳しいテストを行っていますが、さらに信頼性を確実にするため下記のような特別な信頼性向上策を追加して対応しています。

図:信頼性向上技術

ストレージシステムの信頼性テスト

日立のストレージは、マイクロプログラムの出荷後に不具合が発生しないよう、徹底した検証を行っており、その時間は、年間延べ数百万時間に及びます。
また、ハードウェアのテストにも時間を掛けており、低温から高温の環境の中で、高負荷状態において、24時間×6日間のエージング・ヒートランを実施、さらに擬似障害テストを行うなど、徹底したテストを実施しています。

  • * 本記事は、掲載時点の情報です。製品名称等、現時点の情報と異なる場合があります。

図:ストレージシステムの信頼性テスト

ステンレス貼りの恒温槽ルームで自動化されて行われる、ヒートランテスト。

ヒートラン、エージング後にも最終テストが待っています。