本文へジャンプ

ミドルウェア

uVALUE 実業×IT

Hitachi

*
株式会社リクルートキーマンズネット(新規ウィンドウを開く)に2009年04月14日に掲載された記事より転載掲載しています。
サービス内容、料金などは、掲載日または更新日時点のものです。
リスク低減とコスト削減の鍵はJP1だった!
第一話/行方不明のトラブルメーカー
第二話/業務停止への一里塚…
第三話/あなたの予測はあてにならない?
第一話/トラブルの原因が一目瞭然
第二話/レスポンス低下をすばやく察知
第三話/システムの現状を知り、未来に活かす
終わりに
「ある日、ITシステムが突然ダウンしてしまったら…」

そのインパクトは計り知れず、業務が中断することにより巨額の損失が発生することでしょう。もちろん、それだけではなく「信頼」まで失い、企業にとっては大きな痛手となりかねない――。

このようなことにならないためにも、システムの稼働監視は重要だが、「今のところ実害がない」「何とか切り抜けられたから」…と抜本的な対策を怠ってはいませんか?

正しく“備え”ていないということは、大きなリスクを抱えているのと同時に、実は無駄なコストが発生していることにも通じています。

そこで今回、そんな「システム稼働監視」を重要視していなかった3人の管理者を襲った、 “体験談” を紹介します。システムの稼働監視について考え直す、1つのきっかけになると思います。
〜管理者A氏の場合〜
不意の電話
ある日の午後のことです。私が所属する情報システム部の電話が鳴りました。
コールセンターから、「エンドユーザからクレームです。インターネットには接続されているのに、ウチのWebサイトが表示されないそうです」という連絡でした。
急いで確認すると、確かにサイトが表示されません。システムのどこかに異常があるはずと、OS、プロセス、アプリケーション…と、いつもの手順でチェックし始めました。
OS?サーバ?原因はどこ?
しかし、トラブルの原因が今日に限ってなかなか見つかりません。「サーバ台数がこれだけ増えると無理もない。今日中に原因が特定できるだろうか?」と焦りと不安の中、夜は更けていきました…。
深夜にようやく原因が見つかり対処しましたが、翌日の朝までに回復していなかったらと思うと、ぞ〜っとします。
後日、上司に「サイトが停止している間に顧客満足度は低下し、ビジネスチャンスを逃す!何とかせよ」と言われました。トラブルの原因がすばやく分かるしくみがあればこんなことには…。

〜管理者B子さんの場合〜
イラ立つ人々
「まただ!レスポンスが低下していたのか…」
私はモニタを前につぶやいていました。原因は、時折発生するレスポンスの低下だということは分かっていますが、エンドユーザから「つながらない」「表示が遅い」などイラ立つ声が聞こえてから対処をすることがほとんど。でも、レスポンス低下がいつ発生するかなんて知りようがないのであきらめていました。
あわや業務停止?
ところがある日、レスポンス低下がもとで、短時間ですが、ほぼ停止状態になってしまったサービスがあったのです。すぐに復旧できて、ことなきをえたのですが、深刻な事態になりかねない“事件”でした。レスポンス低下は業務停止につながっていると痛切に感じました…。あらかじめ何とかする方法はないのでしょうか?

〜管理者C氏の場合〜
管理コストは減らしたいが
今までは、システムごとにどんどん増設してきたサーバ群。でも最近は、その管理にかかる手間やコストを考え直して、効率的な運用を行わなければならない時代です。でも、1台ごとのサーバの稼働状況が分からないので、減らすこともできずにいました。
無駄なサーバが稼働?
そんな時、「サーバ管理コスト削減につながる策を早急に検討せよ」というお達しが。
システム単位で構築してきたので、余っているサーバはきっとありそうなのですが…。
「こうしている間にも、無駄なサーバが稼働している!」と思うと、気が気ではありません。現在の正確な稼働状況を、早く調査・分析しなければ…と焦る日々です。


「トラブル発見が遅い」ことが、A氏の課題。
この課題を解決できるのが、日立の統合システム運用管理「JP1」の稼働監視製品。システムの規模が拡大し、複雑化している現在、「業務が動いているかどうか」が一目で分かるしくみが必要です。

JP1は、下図の「アラーム監視画面」のようにシステム構成を階層化して表示。どの監視項目でエラーになったか、見やすい画面で一元管理されています。もちろん、プロセスやアプリケーションの動作環境も確認できるので、トラブルがあった場合には、すばやく原因を特定可能です。

DBサーバ、APサーバ、Webサーバなど、対象ごとに専用ツールの操作を覚える必要はありません。OSやアプリケーションの種類を問わず、同じ画面で簡単に確認できます。

また、異なる製品の監視項目どうしや、過去の実績と現在のグラフを重ね合わせた複合レポートの表示が可能な点もJP1の優位性。複数データをビジュアルで比較できるので、稼働情報の比較や関連性を直感的に把握し、作業効率がアップします。


「レスポンス低下の予兆を察知する」しくみづくりが、B子さんの課題。
でも、予兆を検知するにはどうすればよいのでしょうか?
それには、性能を維持できる境界、つまり“しきい値”を利用することが有効です。

例えば、レスポンスが8秒を超えるとユーザからの不満が多くなるのであれば、しきい値を5秒とすることでレスポンス低下の予兆検知ができるのがJP1です。

JP1は、ユーザが普段使用する手順を覚えて、定期的に再生。そのタイムを測定します。あたかも、JP1がユーザであるかのようにふるまうわけです。
その結果、レスポンス低下のしきい値を超えてしまったら、システム管理者に通報。管理者は、ユーザが感知する前に発見できるので、レスポンス低下を未然に食い止めることが可能です。
また、システムが止まってしまい応答が返って来ない状態や、内部エラーによりページが正しく表示できないような状態も検知できるため、異常をいち早く検知し、不具合による影響を最小限に抑えることもできます。

「サーバを減らそうにも稼働状況が見えない」のが、C氏の課題。
この課題について言えるのが、「計画的にシステムを見直すことが、大きなコスト削減につながる」ということ。

長期的に収集した稼働情報をもとに分析することで将来を予測し、今後のシステム設計に役立てていくのです。この稼働情報の収集と分析に力を発揮するのがJP1。
最長10年まで蓄積できるレポートにより、昼間のみ、あるいは夜中のみ稼働しているサーバを発見したり、実はほとんど使われていないサーバが見つかったりと、正確な稼働状況を把握できるのです。

稼働状況は、詳細なレポートにまとめられますので、サーバ台数の適正化やサーバ統合にむけた客観的な資料として有効です。また、システム構成が複雑な仮想環境を構築する際にも、JP1で稼働監視を行えます。JP1であれば、仮想環境での問題の予兆検知はもちろん、対策が必要な物理サーバの特定も容易です。更に、収集した稼働情報によって、仮想環境と物理サーバの両面を考慮した適切な対処ができるので、仮想環境を含めたシステム全体の安定稼働を維持できます。


今回は、3人の管理者が経験した“体験談”というスタイルで、稼働監視について紹介しました。

この体験談が現実とならないために、どのようにすればよいのかを考える一助となれば幸いです。

――今回登場した3人の管理者は、その後JP1を導入し、背筋が凍るような体験をするどころか、安定したシステム運用ができるようになり、システム拡張の計画もスムーズになったそうです。それに何より、無駄な作業や管理コストが減ったことで、社内での評判も上々だとか…。
●セミナー開催のお知らせ
日立では、情報システム部門やシステム管理者向けに、運用管理の「見える化」を実現するためのセミナーを開催しています。この機会にぜひ、効果的な運用管理について学んでみてはいかがでしょうか。詳細は下記URLをご参照下さい。
https://www.open-middle.com/hitachi/j/

※開催日以降または満員などにより、上記セミナー情報のページはご覧いただけなくなることがあります。あらかじめご了承下さい。
●“JP1 News” のお知らせ
“JP1 News”では、JP1が提案する各ソリューションのポイントや導入メリット、関連するセミナー、イベント/展示会、キャンペーン情報などをご紹介しています。
JP1の最新情報や便利な使い方について知りたい方は、チェックしてみてはいかがでしょうか。
詳細は、下記URLをご参照下さい。
http://www.hitachi.co.jp/soft/open/mail/jp1/

関連サイト