ページの本文へ

Hitachi

Hitachi IoT Platform Magazine

最終話 DNA(1/3)

チーム360のDNA

不幸中の幸い

日立ソリューションサポートセンターから緊急メールが飛び込んで来た。
 G社の基幹システムにおいてフェイルオーバーが発生。原因究明の要請。私は電話のボタンを押しながら、隣に座る深水さんに確認する。
 「深水さん、特別サポートチーム、招集します」
 「頼む」
 私の名前は、阿部やす子。今年、日立製作所に入社し、お客さま情報システムのサポートサービス「サポート360」を提供する部署に配属された。肩書は、重度障害に対応する「アカウントマネージャー」のアシスタント。
 そして深水さんは百戦錬磨のベテラン・アカウントマネージャーで私の教官役だ。

 深水さんと会議室に入った私は、壁面ホワイトボードにG社システムの構成図を書き始める。
 書きながら「ほんとによかった」と思う。いや、もちろん障害発生はよくないのだが、G社では、Linuxの障害への弱さを見越して、随所に日立が独自に開発したLinuxのための高信頼化機能を導入していた。そのおかげで今回現用系サーバーはダウンしたが、すぐに待機系サーバーへの切り替えが実行され、基幹システムは業務を継続することができたのだ。

 ほどなく、スタッフが次々と部屋に入ってくる。Linux、データベース、仮想ソフトウェア、サーバー、ストレージ、ネットワーク――それぞれのエキスパートで構成された特別サポートチームだ。
 すでにG社から資料は届いており、すぐに検証が始まる。
 「今、タフダンプのファイルを見てるんですが」とLinux担当者。
 タフダンプとは、"Linux Tough Dump"のこと。これも日立が独自に開発したしくみで、ダンプ採取機能が脆弱なLinuxカーネルに代わって、確実にダンプを取る。
 「SCSIコマンドで失敗してますね」
 「カーネルはどう動いてる?」と深水さん。
 「少々お待ちを。今イベントレコーダーを見ます」
 イベントレコーダーとは、"Enterprise Event Recorder for Linux"のこと。飛行機のフライトレコーダーのように、カーネルの動作を記録する。やはり日立独自のツールだ。
 検証は一歩ずつだが、着実に進んでいく。なんといっても、標準的なLinux環境では手に入らないデータが豊富に存在するのが大きい。

 その日の夜、それほど深くならないうちに原因が判明した。
 「お疲れ様でした。でも今回、うち独自のしくみがなかったらと思うと、ぞっとしますね」と、私が言うと、Linux担当者が教えてくれた。
 「みんな深水さんたちが作ってきたんだぜ。10年以上も前からこつこつと。ねえ、深水さん」
 「え!ほんとですか?」
 「俺はきっかけを作っただけだ」