ページの本文へ

Hitachi

ビッグデータ

ビッグデータへの道:第1回「ビッグデータとは?」

日立のビッグデータ利活用例をご覧になりませんか?

ここ数年、企業IT関連で最も注目されてきたキーワードと言えば「クラウド」を思い浮かべる方が多いと思います。しかし、2011年から「ビッグデータ」が新たなキーワードとして急速に注目され始めました。

これまでも企業はデータや情報をビジネスに役立てるために様々なITを利用してきました。多くの企業で、DWH(データウェアハウス)やBI(ビジネス・インテリジェンス)ツールといった製品または顧客管理や販売管理などのアプリケーションをすでに利用していると思います。

では、「ビッグデータ」なぜ注目されているのでしょうか。「ビッグデータ」はこれまでのものと何が違うのでしょうか。本コラムではビッグデータに関する雑誌寄稿 ・調査で定評のある調査会社、株式会社アイ・ティ・アールの生熊清司氏にご協力をいただき、3回のシリーズで「ビッグデータ」について考えていきたいと思います。

「ビッグデータとは?」

「ビッグデータ」はそのままの意味で解釈すれば巨大なデータとなります。現在、日本の企業の大規模DWHの容量は、数テラバイトの規模が多いのですが、例えば、1,000テラバイト(1ペタバイト)の規模のシステムを「ビッグデータ」と言うのでしょうか。

もう1つ「ビッグデータ」と言えばよくFacebookなどのソーシャル・ネットワークのことが引き合いに出されます。確かにFacebookの会員数は8億人を超えたと言われており、1日に10テラバイトのデータを処理していると言われています。そして、これらのソーシャル・メディアはRDBMS(リレーショナル・データベース)でなく、NoSQLという別のデータ管理ソフトウェアを利用しています。では「ビッグデータ」はNoSQLのシステムということでしょうか。

この2つから考えると「ビッグデータ」とは、「1ペタバイトのような非常に大量データをNoSQLを利用して処理するシステム」という答えになります。さて、この答は正解でしょうか。答えは△だと考えます。正しいですが、「ビッグデータ」の全てを表してはいません。「ビッグデータ」が表す意味はもう少し複雑なものだと考えています。

なぜかと言えば、RDBMSを利用して大量のデータを利用している企業は世界にすでに存在しているからです。例えば、Bank of Americaでは1.5ペタバイト以上のDWHを持ち、世界的なスーパーマーケットチェーンであるウォルマート・ストアーズでは2.5ペタバイト以上、さらにインターネットのオークション・サイトであるeBayでは6ペタバイト以上のデータを格納したDWHが稼働しているそうです。ですから、単純のペタバイトなら「ビッグデータ」ではないのです。ちなみに、このような巨大なDWHシステムはEDW(エンタープライズ・データウェアハウス)と呼ばれており、そのデータベースはVLDB(Very Large Databese)と呼ばれてきました。

また、確かに、NoSQLはRDBMSに比べて、スケールアップ(スケールアップとは処理性能を上げるためにサーバやストレージの台数を増やして、処理性能を向上させること)に向いていると言われています。しかし、だからといって、RDBMSが不要となるわけではありません。NoSQLは文書や画像などの非構造化データの処理には適していますが、数値などの構造化データ、それもデータの正確性を重要視するような処理には向いていないのです。実際、Facebookでもすべての処理をNoSQLで行っているわけでなく、RDBMSも利用しています。つまり。データの種類と必要な処理に応じて、RDBMSとNoSQLを使い分けているのです。

では、「ビッグデータ」とは何なのでしょうか。残念ながら共通定義はまだ定まってはいません。1つの定義としては、「ビッグデータとはインターネットの普及とIT技術の進化によって生まれた、これまで企業が扱ってきた以上に、より大容量かつ多様なデータを扱う新たな仕組みを表すもので、その特性は量、頻度(更新速度)、多様性(データの種類)によって表される。」と考えます。これでは、分かり難いと思われる方もいらっしゃると思うので、この定義について説明を続けます。

図1:ビッグデータの特性
図1:ビッグデータの特性

図1は、定義に出てきた特性を表しています。「ビッグデータ」はこれまでのDWHやOLTPといったシステムにくらべ、以下の3つの部分に違いがあります。1つめはデータ量が多いということ、2つめはデータの種類が多いということ、そして3つ目はデータの変化する頻度が多いということです。そして、これらの条件が重なることで、従来のシステムでは取り扱うことが困難であったデータとそれを扱うためのシステムのことを「ビッグデータ」と呼びます。

特に、ビッグデータの特徴は、量だけでなく、扱うデータの種類が多いことにあります。扱うデータには、構造化データと呼ばれる、会計システムなどの基幹システムから発せられる数値や文字列といったデータだけでなく、非構造化データと呼ばれる、文章、音声、動画といったマルチメディア・データなどのデータが含まれます。さらに、電子メールのデータやXMLデータなどの半構造化データ、さらに、各種センサーや機器から発せられるデータや通信ログように頻度が非常に多いようなデータも含まれます。さらに、これらのデータには社内だけでなく、インターネット上の社外にある場合も多くあります。

この取り扱うデータの種類の差が、従来のシステムとビッグデータを区別するヒントとなると思います。ビッグデータの活用を先導している企業の多くはGoogle やFacebookといったWebサービス事業者です。そして彼らのデータ活用は、従来の売り上げデータや顧客データのような社内に存在するデータではなく、Web上にある文章や画像といったデータが中心となっています。

さらに、これまで企業の多くはデータ活用をたとえ顧客データであっても、活用目的は個々の顧客の属性ではなく、集計することによって得られる傾向情報が中心でした。しかし、これらのWebサービス事業者では、顧客の個々の属性を捉え、Amazonのようなリコメンデーションのように細分化された情報を利用しています。そして、大きく異なるのは、データ処理に対する精度よりもスピードが重視していることです。

図2は、これまでのシステムとビッグデータでのデータに対する考え方の違いをまとめてみました。図の左側のようなデータに対する考え方であればRDBMSが向いており、左側のような場合はNoSQLが向いているのです。そして、「ビッグデータ」は右側のような考え方に基づいたデータ処理と言えます。従来のDWHは大容量であっても、構造化データ中心で、データ更新の頻度も月単位など変化頻度はそれほど高くありませんでした。したがって、大容量+非構造化データ+高頻度という新たな組み合わせに対応するシステムとして「ビッグデータ」が注目されるようになったのです。

図2:ビッグデータのデータに対する考え方
図2:ビッグデータのデータに対する考え方

まとめ

「ビッグデータとはインターネットの普及とIT技術の進化によって生まれた、これまで企業が扱ってきた以上に、より大容量かつ多様なデータを扱う新たな仕組みを表すもので、その特性は量、頻度(更新速度)、多様性(データの種類)によって表される。」

注意点

  • 大きなデータだからといってすべてが「ビッグデータ」ではない。
  • どんな場合でもNoSQLで処理するべきではなく、RDBMSとNoSQLは使い分ける。
  • ビッグデータとこれまでのシステムとの大きな違いは扱うデータの種類にある。

次回、第2回は「ビッグデータの活用範囲」と題して、どのような活用があるのかを、いくつかの事例を基に考えてみます。

協力 株式会社アイ・ティ・アール 生熊清司氏

サムネイル

最終回「ビッグデータを活用するためには」
「ビッグデータ」活用するためにどんな準備や心構えが必要なのかを考えます。

サムネイル

第2回「ビッグデータの活用範囲」
「ビッグデータ」はどのような活用ができるのかを考えます。

サムネイル

第1回「ビッグデータとは?」
これまでのシステムとの違いなどから「ビッグデータ」が何であるのかを考えます。

特記事項

  • 記載されている会社名、製品名は、それぞれの会社の商標もしくは登録商標です。