本文へジャンプ

ミドルウェア

uVALUE 実業×IT

Hitachi

「情報爆発」時代におけるビッグデータ利活用の今と未来

「ビッグデータ」はバズワード的な扱いを脱し、さまざまな場面で実際に活用され始めている。そんなビッグデータが注目される前から情報爆発を予見し、技術の研究を重ねて来たのが東京大学 生産技術研究所 教授の喜連川 優氏である。今回の特別対談では、ITジャーナリストの新野 淳一氏が聞き手となり、日本経済の屋代骨であるものづくりへの貢献にも触れつつ、日本社会というインフラに対するビッグデータの可能性について語り合う。

「情報爆発プロジェクト」とビッグデータを取り巻く環境

喜連川 優 氏の写真
東京大学
生産技術研究所
教授
喜連川 優 氏

新野 喜連川先生は「ビッグデータ」という言葉が広まる以前から、現在の情報爆発のインパクトを予見し、それに向けた技術研究を行う「情報爆発プロジェクト」を主宰してこられました。研究では具体的にどのような目標を定められたのでしょうか。

喜連川 2005年に文部科学省の科学研究費補助金特定領域研究としてスタートした「情報爆発」プロジェクトでは、前世紀末から今世紀にかけて生じた情報爆発とも呼ぶことのできる情報量が爆発的に増大しつつある現象に着目し、そこから派生すると想定されるさまざまな課題を明らかにすると同時に、それに対し、情報学研究者の総力を結集し、先進的なIT基盤技術の創出を目指しました。

 具体的には大きく4つの研究項目、1つは大量の情報から真に必要な情報を効率良く取り出す「次世代検索技術」、次に、爆発する情報の受け皿となる「システム基盤技術」。3つ目は「人に優しい情報環境の構築技術」、さらに4つ目として、これら「先進的なITサービスを人間社会に受け入れやすくするための社会制度設計の研究」をそれぞれ推進してきました。

新野 2010年3月に一度区切りを迎えたプロジェクトは非常に高い評価を獲得しました。そしてそれぞれの研究成果は現在も新たなプロジェクトに継承されています。その中で先生は一貫して「情報爆発はチャンスである」という言い方をされていますが、それはどのような意味なのでしょうか。

喜連川 当時、情報が増えることについてはオーバーロード、いわゆる過負荷によって人々が情報に溺れてしまうというネガティブな側面がクローズアップされていました。

 しかし別の見方をすれば、これほどまでに膨大な情報を手にするのは、人類にとって初めての経験であると言えます。それをうまく活用すれば、新しい発見やソリューションを見出せるチャンスなのではないか―そうポジティブに捉え直したのです。

 例えば、モノにセンサーを付けるたび、情報量は加速度的に増えていきますが、それをキャッチして利活用すれば新しい価値が生まれてくる。実際、最近は日本でも「情報爆発」を「ビッグデータ」と表現するようになり、それは大量データを積極活用しようというポジティブさを言い表す言葉になっています。

変化はすでに起こり始めている

新野淳一 氏の写真
Publickey主宰
ITジャーナリスト
新野淳一 氏

新野 まさに先生の予見が現実のものとなったわけですね。では今後、ビッグデータの利活用は、企業や社会生活にどのような変化を起こしていくとお考えですか。

喜連川 すでに変化は起きていると思います。最近よく聞かれるようになった「データ・ドリブン・スタートアップ」という言葉があります。「データをうまく活用することで、今までにないサービスやビジネスを起こす」という意味ですが、もはやそれは始まっているのです。

 例えば、プローブカー・システム。自動車に各種センサーを取り付けて、アクセルやブレーキ、ワイパーなどの動作情報を、GPSの位置情報とともに無線で収集するシステムで、一部メーカーによって実用化が進んでいます。現在は、収集した情報を渋滞予測や迂回路の案内に利用しているケースがメインですが、この情報を利用すると、道路の特定の場所で多くの運転者がブレーキをかける頻度が非常に高いポイントがあることが読み取れます。このような状況が捕捉できますと、「近くに子どもたちが通う幼稚園や学校があるため」なのか、「道路設計そのものに原因があるため」なのか等、さらなる詳細な分析のきっかけを与えてくれます。

 宅配便の事業者なら、この情報から急ブレーキの多い道路を推測し、そこを避けて配達するよう全運転手に指示することが可能となる。これで会社は事故のリスクを大幅に軽減できます。道路を管理する自治体なら、同じ情報を使って、道路の見通しを良くするためのインフラ改善に利用できることになります。

 もう1つの活用例は建設機械への適用です。大規模な工事に使われる建設機械は、鉱山から資源を掘り起こすなど、非常にハードな状況下で利用されているため、故障率も高い。しかし突然動かなくなってしまうと、工事はストップし、納期遅れを招いてしまう。そこであるメーカーは、建設機械の1台1台にGPSとセンサーを取り付け、位置や運転状況、故障情報などを逐一把握する環境を作りました。これでトラブルの予兆を事前にキャッチし、部品交換やメンテナンスの早期実施を実現して、稼働率を大幅に高めています。

 そう考えると、ビッグデータの利活用からはクラウドと同じ「サービス指向」の傾向が読み取れてきます。クラウドはサーバやストレージといったハードウェアに投資するのではなく、そこで処理されたサービスだけを買うものです。建設機械にしても、顧客は高価な機械そのものがほしいわけではなく、「資源を掘るためのサービス」を買いたいわけです。今後はそうしたサービス指向のビジネスモデルが、徐々に主流になっていくと思います。この点で、ものづくり産業においても、その商品提供の在り方にビッグデータが非常に大きな影響を及ぼしていく可能性があると思います。

情報爆発を起こさせよう

新野 逆に、ビッグデータを利活用できないと、提供するものがサービスであれモノであれ、改善や開発で他社に後れを取り、負けてしまう可能性があるということですね。

喜連川 そうですね。だからこそ、あえてポジティブに「情報爆発を起こし、それをものづくりに生かそう」という期待感が出てくるのです。以前、アルビン・トフラー(米国の未来学者)が『第三の波』において提示した「プロシューマー」という概念、あれは「企業ではなく、消費者自身が既存製品の改良案や新商品のアイデアを提案するようになる」という予言でした。それが今では現実のものとなっています。

 とはいえ、世の中の全てのモノに対する意見やアイデアを、消費者自身に語ってもらおうといっても限界がある。そこで、人の代わりに「モノ自身」に語らせればいいという発想が生まれた。それが膨大な数のセンサーから発信されるビッグデータであり、それをこれからの価値創造に生かしていこうという流れになっているわけです。

新野 日本のものづくり産業が世界に確固たる存在感を示し、新たな価値を創出していくためには、ビッグデータを積極的に利活用していかねばならない――では、そうした環境を実現するために、今後どのようなことが求められてくるのでしょうか。

喜連川 まず技術面について言えば、ビッグデータ= Hadoopというイメージが強いようですが、Hadoop は大規模データに対するETL(Extract/Transform/Load)的な存在なんですね。従って、多くのベンダーが「Hadoopからロードしたデータを、RDBエンジンに入れて、SQLで解析する」という構図を提案しているように、目的や用途に応じて複数の技術を使い分けていくことが必要です。

 新しい要素も必要です。例えば、従来型のRDBではビッグデータをさばき切れない点で、新しいアーキテクチャを持つRDBが必要になります。これについては、われわれも内閣府による最先端研究開発支援プログラムの下で、日立製作所とともに超高速データベースエンジンの共同研究開発を行ってきました。このほかにも、個人を特定せずにデータマイニングを行う技術、データを圧縮したまま処理する技術など、いろいろな要素技術を開発していかなければビッグデータを円滑に利活用することは難しくなります。その意味で、今後はITベンダーにとって非常にエキサイティングな時代になっていくのではないでしょうか。

情熱を持って挑戦できる場を

新野 ところで、一般企業にとっては、データをきちんと分析・活用できる人材育成も重要な課題ですね。

喜連川 ITとビジネスの双方に精通した人材を育てるのが理想ですが、それをこれから始めるという考え方は現実的ではないかもしれません。双方の知識を持った人材を育てるための決して短くない期間を、現実のビジネスは待ってくれないからです。従って、統計理論や数理工学の基礎的素養を持つ方々に、ITスキルや分析リテラシを磨いていただく、あるいは、さまざまな業務分野と技術に精通したITベンダーと協業することが現実解となるのではないでしょうか。

 それよりもむしろ、ビッグデータの利活用を進める上で早急に解決すべき課題は「データのオーナーシップ」です。データの保有権を持つ主体は「センサーを設置した人」なのか、「設置された場所やモノの所有者」なのか、いまだガイドラインがはっきりしません。得られたデータが個人に強く関連する場合には、特段な配慮も必要です。そうした法整備をきちんと進めていくことが、ビッグデータの利活用を加速させる前提となります。

新野 そうしたルール作りも含めて、日本の研究者やIT技術者にはますますのチャレンジが期待されますね。

喜連川 われわれ大学や研究機関の人間は、自分の研究にいかにエキサイトできるか、人がやっていないことにどれだけ情熱を持って挑戦できるかという「エンジョイメント」を大きな原動力としています。昨今、成長著しい日本のSNS企業のトップの皆さんと会話する機会がありましたが、彼らもそうした想いは一緒でした。

 つまり、ビッグデータの分野に限らず、日本にもイノベーションに向けて挑戦している人間は山のようにいるのです。ソフトウェア開発にしても、ちまたで言われているように「日本には元気がない」わけでは決してない。グローバル社会における今後の企業力、国力の強化は、そうした研究者や技術者のエンジョイメントを、いかに長い目で見て育て、応援できる環境を作り上げていくかにかかっている。私はそう思います。

新野 日本のビッグデータ利活用に向けた取り組みは、まさにこれからが本番ということですね。本日は貴重なお話をありがとうございました。

世界最高速を目指す超高速データベースへの挑戦

従来とは異なる、新しい考えのもとに設計された超高速データベースエンジン。この先進的な技術を生み出す母体となったのが、国が推進する「最先端研究開発支援プログラム」である。超高速データベースエンジンはどのようにして生まれてきたのだろうか。

超高速な非順序型データベースエンジン

 東京大学と日立製作所が共同で推進してきた超高速データベース( 以下、DB)エンジンの研究開発成果が、ビッグデータ利活用に向けたデータアクセス基盤(*1)として製品化されることになりました。われわれ研究者にとって非常に嬉しいニュースです。もともとこの研究は、内閣府が我が国の全ての研究開発領域から30人の研究者を公募で選び、強力に推進することを目的とした全く新しい施策「最先端研究開発支援プログラム(FIRST)」(*2)に採択されたもので、2010年3月から4年計画で推進されています。

 高速化の仕組みを簡単化してご紹介いたしますと、従来の「順序型」DBエンジンでは同期I/Oによってデータの問い合わせ処理が順番に、すなわち決定的に進められていきます。これに対しまして、われわれが考案いたしました「非順序型」DBエンジンでは、大量の非同期I/Oを発行し、データの要求順序とは無関係に、処理が可能なところから随時データ処理を非決定的に行っていきます。これにより、ストレージシステムやマルチコアプロセッサの利用効率を大きく向上でき、大幅な高速処理が実現可能となります。

(*1) データアクセス基盤「Hitachi Advanced Data Binder プラットフォーム」
(*2) 先端研究開発支援プログラム「超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする戦略的社会サービスの実証・評価」

コアコンピタンスを持つ日立との連携

 DBエンジンの構想を実用化するために日立とパートナシップを結ばせていただきましたのは、1つは「HiRDB」という国産DB 管理システム(DBMS)を自社開発し、社会基盤を支えるDBMSコードをしっかり維持されてきたことです。本格的なDBMSを長期にわたって保守・改善していくことは並大抵ではありません。大学でずっとDBの研究を続けて参りました私たちは、そのようなコアコンピタンスを非常に大切にしておられる会社に尊敬の念を抱くと同時に、良い協力関係が組めればと考えました。

 もう1つは、世界的にプレゼンスの高いハイエンドストレージの技術です。今回開発した非順序型DBエンジンはストレージに対し高い負荷を与えるソフトウェアとなっており、ストレージシステム(ディスクとコントローラ)には高度な信頼性と処理能力が求められます。このようにDBMSとストレージ両方に関し際立った技術を持たれておられることが大変魅力的で、私どもの研究成果を実現する上でパートナシップを組ませていただいた次第です。

コードベースを全て書き換える大英断

 実装技術開発では、日立のエンジニアの方々の熱意と努力に助けられております。本プロジェクトを始める前にもわれわれは数多くのデータベース高速化に関する研究を進めて参りましたが、当初、既存のデータベースのソフトウェアコードを原則いじらない方針でおりました。それは、大きなソフトウェア資産の根幹部位を変更することは一般に非常に大きな労力が必要となるからです。しかし、いろいろと実験をしてみますとその手法ではどうしても10倍程度の性能アップにとどまることがわかりました。情報爆発時代(今で言うビッグデータ時代)を打ち勝つには最低2桁以上の数字は担保しなければならない―そう考えたとき、残された方法はソースコードを全て根底から書き換える以外にありませんでした。

 今まで積み上げてきたソースコードを全部入れ替え、もう一度最初からデバッグし、ユーザーサイドの品質保証を行うといった作業は、われわれ大学の研究者からしますと考えられないほどハードルの高い挑戦です。しかし日立は大英断を下し、実際にその作業をやり遂げられました。研究成果を何としても社会に還元したい、そのためにこのプロジェクトを絶対に成功させようという互いの気持ちが通じ合えましたことを大変嬉しく感じております。

 今回製品化されましたソフトウェアはHiRDB従来比で約100倍(*3)のデータ検索性能を発揮しますが、最終的には800倍程度にまでデータ解析系処理を高速化していきたいと考えています。いよいよ本格化するビッグデータ時代に向けて、今後も多様な挑戦を続けてゆく所存でおります。

(*3) 解析系データベースに関する標準的なベンチマークをもとに作成した、各種のデータ解析要求の実行性能を計測。データ解析要求の種類によって高速化率に差は見られるが、データベースにおいて特定の条件を満たす一定量のデータを絞り込んで解析を行うデータ解析要求を対象とした結果