ページの本文へ

Hitachi

ソフトウェアミドルウェア

第11回 必要なときに必要なデータをすばやく
〜高速データアクセス基盤〜

ビッグデータへの関心は高いものの、実際にビジネスに利用できている企業はどれほどあるでしょうか。日々社会生活の中で蓄積されていく巨大なデータは、分析のための時間とコストも膨大になり、思うように利用できていないケースが多く見られるようです。
「必要なときに必要なデータをすばやく利用したい」というお客さまのニーズに応えるため、高速データアクセス基盤は生まれました。

今回のインタビューでは、八木さん(プラットフォーム開発担当)と田原さん(エンジン開発担当)に、製品にかける熱い思いを語っていただきました。

ITプラットフォーム事業本部 ビッグデータソリューション部 八木(左)/DB部 田原(右)
ITプラットフォーム事業本部
ビッグデータソリューション部 八木(左)/DB部 田原(右)

  • 製品開発のきっかけ:
    「必要なときに必要なデータをすばやく利用したい」というお客さまのニーズに応える

−この製品ができたきっかけを教えてください。

八木:
近年、ビッグデータの利用が注目されていますが、実際のビジネスでその効果を得るためには、タイムリーなデータ分析が求められます。例えば、いち早く顧客の動きをつかむために、従来は四半期ごとだった分析が、月単位、週単位、日単位とどんどん短くなっています。また、分析結果を掛け合わせたり、さまざまな視点で分析したりすることで、新たなビジネスチャンスを見つけることができます。
このように、柔軟に分析軸を変えながら、「必要なときに必要なデータをすばやく利用したい」という、お客さまのニーズに応えようとしたことがきっかけです。

−なるほど。「必要なときに必要なデータをすばやく利用する」ということは、これまでできなかったのでしょうか?

八木:
多くの企業では、日々蓄積される基幹業務データの中からビジネスに必要な部分だけを抜き出した、データマートと呼ばれる分析用のデータベースを作成しています。しかし、データマートの構築には時間が必要です。こんな情報が欲しいと思ってから、実際に分析結果を利用するまでに何か月もかかってしまったら、大事なビジネスチャンスを逃してしまいます。さらに、データマートは限られた範囲の分析に特化して作られているため、分析軸を柔軟に変えることができません。

データマートを使用した場合 データマートを使用したこれまでの方法では、事前に明細データ(POSデータ)からサマリーデータ(データマート)をバッチプログラムで作成する必要がある。そのため、膨大なデータをすばやく、しかも柔軟に軸を変えながら分析することはできない。

田原:
そこで、データマートを作成することなく、さまざまな視点でのきめ細やかなデータ分析がすばやくできる仕組みを実現しました。これは、従来のデータベースとはまったく異なる新しいアーキテクチャによって可能になりました。
例えば、今までは分析の目的ごとに、一定の期間や特定の地域のデータを抜き出してから分析する必要がありました。しかし、新しいアーキテクチャを採用した高速データアクセス基盤を使用すると、データマートを作成することなく、すぐに分析できます。

高速データアクセス基盤を使用した場合
高速データアクセス基盤では、データマートなしで、すばやくしかも柔軟に軸を変えた分析を実現。

  • 製品のコンセプト(1):
    超高速データベースエンジンですばやい分析を可能に

−それでは、高速データアクセス基盤とはどんな製品なのか教えてください。

田原:
高速データアクセス基盤は、ビッグデータの効果的な利用を実現するための製品です。特長としては、新しいアーキテクチャである非順序型実行原理*1を利用した超高速データベースエンジンを搭載しているのですが、その名のとおり、とにかく速いです。

−非順序型実行原理とはどんなものですか?

田原:
非順序型実行原理とは、リレーショナルデータベースの検索が順序性を持っていないことに着目し、データの検索や演算を非同期に並列実行するという、従来にはないまったく新しい考え方です。

−具体的に、どのくらい速いのでしょうか?

田原:
例えば、あるお客さまの事例では、売り上げデータの分析をするときに、26億件の売上げ明細から得意先を分析するSQL*2を、わずか22秒で完了できるという、驚異的なスピードを誇っています。
この性能は、データベースシステムの検索処理性能に関する業界標準のベンチマークであるTPC-H*3の最大クラス(100TBクラス)の性能評価リストに世界で初めて登録されたほどなんですよ。検索スピードの飛躍的な向上によって、すばやい分析を可能にしました。
*1
非順序型実行原理は、喜連川 東大教授/国立情報学研究所所長・合田 東大特任准教授が考案した原理です。
*2
SQL:Structured Query Language
*3
TPC-Hは、トランザクション処理性能評議会(Transaction Processing Performance Council)が運営するデータベースの処理性能の指標(ものさし)の1つです。
  • 製品のコンセプト(2):
    コンパクトにすぐ立ち上げることによりコスト削減を可能に

−ほかにはどのような特長がありますか?

八木:
スピードスタートによってコストを大幅に削減できるのが魅力です。まず、業務によっては数100種類以上も必要だったデータマートが不要になるため、その開発・保守コストを削減できます。
また、これまでは、処理時間を短縮するためにサーバーの数を増やして処理を分散させる必要がありましたが、この高速データアクセス基盤なら、データベースサーバーを1台に集約することができ、ハードウェアの運用・保守コストを大幅に削減できます。

ITプラットフォーム事業本部 ビッグデータソリューション部 八木

−データ量の増加にも対応できますか?

八木:
最初は、初期投資を抑えたスモールスタートが可能です。その後、ビジネス規模やデータ量の変化に応じて、ストレージの追加にも対応できます。
また、日立側でビッグデータ利用に最適な状態にチューニングした、ベストプラクティスモデルを用意していますので、スピーディーに運用を開始できます。
  • 開発のポイント(1)::
    使いやすいかどうか 〜パラメタ設定をかんたんに〜

−では、開発にあたって工夫した点があれば教えてください。

田原:
「ユーザーにとって分かりやすいか、使いやすいかどうか」という点にはこだわりました。
当初ユーザーが設定することになっていたパラメタ類も、システム側で最適な状態で動かすようにすることで、どんどん削除しました。また、機能を追加してもパラメタを増やさないように心掛けました。その結果、設定が必要なパラメタは10個未満になりました。
「お勧めの指定値をマニュアルに書けないのであれば、ユーザーが指定する必要はないはず」と思っています。

−パラメタの設定が少ないのはうれしいですね。

八木:
パラメタの設定は難しい部分なので、できるだけ省きたいというのがユーザーの本音でもあると思います。設定することが少ないほど、早く運用を開始できるわけですから。そのようなニーズもありましたね。
  • 開発のポイント(2):
    性能向上を追求 〜検索はもちろん、インポートもさくさくと〜

−性能面でのこだわりはありましたか?

田原:
検索のときには、たくさんの処理を並列実行しますが、このときバランスよく仕事を割り振らなければなりません。このバランスが非常に難しいです。特定の部分が仕事をしすぎてメモリを使いすぎてしまったり、逆に仕事の割り当てが少なくて待ち状態が発生したりしないように、仕事の特性を意識した非常に細かい調整を、開発時に行っています。この微調整を怠らなかったことが、高速性につながっていると思います。

ITプラットフォーム事業本部 DB部 田原

−ほかに苦労したところはありますか?

八木:
データを分析するためには、そもそも大量のデータをデータベースに取り込まなくてはなりません。この処理をインポートといいますが、このインポートの高速化にも苦労しました。一般的に、データベースにデータを取り込む際には、実際にデータを取り込むだけでなく、取り込んだデータの格納位置の情報も管理しています。これをインデックスといいます。インデックスを使用するとデータを高速に検索できるようになるのですが、当然、作成には時間がかかります。そこで、インデックスを分割して作成することで処理を並列化し、最後にマージする方式を考案しました。この並列化によって、インポート処理が3倍から5倍くらい速くなりました。

−検索もインポートも速いんですね!

田原:
そうなんです。しかも、新鮮なデータをすばやく検索できるように、検索とインポートを同時に実行できる仕組みも実装しました。検索とインポートの同時実行は、ほとんどのお客さまが利用されています。
  • お客さまの声:
    インポートが短時間でできるので助かる!

−お客さまの反応はどうでしたか?

田原:
インポートが高速でうれしい、助かるといった声を真っ先に聞きます。夜間にインポートしなければならないが、一度失敗するともうやり直しがきかないぐらいいっぱいいっぱいだったのが、2回ぐらいリトライできるようになり、心の余裕ができたとのことです。時間が足りなくて今まで利用できなかったデータをデータベース化できるようになったことも、うれしいとおっしゃっていました。

−検索性能についてはどうでしたか?

田原:
システムに詳しいお客さまからは、検索時の性能を数値で見て、「データ入出力性能の限界ぎりぎりいっぱいまで活用して検索できるのはすごいね。」というお褒めのお言葉をいただきました。

−お客さまの反応を見て、さらに改善や工夫をした点はありますか?

田原:
この高い検索性能を維持するためにはチューニングが重要ですが、高速データアクセス基盤は従来のデータベースとはまったく異なるアーキテクチャで開発されているので、当初はチューニング情報が少なく、お客さま自身でチューニングするのは難しい状況でした。そこで、チューニングに関する改善には現在もっとも力を入れています。
  • SEの声:
    予想よりずっと早くサービスを開始できた

−SEの反応はどうでしたか?

八木:
やはり導入期間の短縮がうれしいとのことです。システム導入に最低でも半年はかかると思っていたところが、3か月でサービスを開始できて良かったとの声がありました。

−期間の短縮には、何が効果的だったのでしょうか?

八木:
通常は、納入後にSEが設計、構築しますが、あらかじめサイジング、検証済みのものが手元に届くわけですから、電源を入れてスタートボタンを押せば、起動できます。SEは、お客さまの業務支援に注力できるということが大きいでしょう。
  • 最後にひとこと

−最後に、製品に対する思いや今後の展望など、ひとことお願いします。

八木:
引き続きスピードスタートにこだわりたいです。SEによるシステム導入の短縮は実現できましたが、サービス開始までには、システム導入のためのさまざまなプロセスがあります。これら全体がよりすばやくスムーズに進み、迅速にサービス開始できるよう、日立として全力をあげてサポートしていきたいと考えています。
田原:
検索の高速性はもちろん、ビッグデータをより扱いやすくしていきたいと思っています。「ユーザーにとって分かりやすいか、使いやすいかどうか」というところは大事にしたいです。また、ビッグデータの利用は社会イノベーションを進める上でも欠かせません。そういった分野でも高速データアクセス基盤の活躍の場はますます広がっていくと期待しています。

最後に

今回お話をうかがって、高速データアクセス基盤は、お客さまのニーズに応えるために、開発者がこだわりを持って作り上げた製品ということが大変よくわかりました。本日はありがとうございました。(編集担当)

製品情報

高速データアクセス基盤に関する情報は、次のサイトをご参照ください。

社会イノベーション事業や流通業での活用例をご紹介しています。

データ連携・統合ソリューションは、高速データアクセス基盤を活用したミドルウェアソリューションです。

資料請求・お見積もり・仕様などのお問い合わせ

お問い合わせ

本製品に関するお問い合わせを電話またはWebフォームでお受けしております。
個人情報保護ポリシー (新規ウィンドウを開く)の内容にご同意の上ご連絡ください。