特集記事:HITACHI USER -ITビジネスNavi Vol.1-
電子商取引、電子マネーやICカードの普及、RFID(Radio Frequency Identification)による物流管理、センサー技術の発 展など、社会インフラの変化から取り扱うデータ量が飛躍的に増 大してきており、まさに「情報爆発時代」の到来といえます。
図1:情報爆発時代の到来
身近な例として、FacebookやTwitterといったソーシャルネット ワークのサービスでは、各々6億人、1億人と言われるユーザーを 抱え、日々ペタバイト規模のデータを処理するようになってきてい ます。また、証券・金融の分野やスマートグリッドなどにおいても、 膨大なアクセスログやセンサーデータを解析して活用する取り組 みも始まっています。
これらのデータをうまく活用して、新たなビジネスに繋げていく ことは、今後の企業発展における一つの鍵となります。また、既存 システムにおいても、データ量の増大に伴い、バッチ業務の処理 時間が遅延することにより、他のサービス時間が圧迫されることを 懸念する企業が多くなってきています。このような背景から、大量 データを短時間/リアルタイムに処理することで、新たなビジネス 価値が生まれてきます。
具体的な例としては、今まで記録目的で蓄積してきたWebアク セスログなどの履歴情報を活用し、お客さまの好みの商品を選択 して嗜好にあわせた商品の提案や広告表示をする新サービスの 提供が考えられます。また、現在、売上集計を日時バッチで処理し ている場合が多いPOSデータをある種のセンサーデータと捉えて 1時間ごとに集計・分析することができれば、商品の仕入れや配置 などの意思決定の迅速化が図れるようになります。さらに、商用施 設や駅などで最近よく見かけるデジタルサイネージ(電子看板)を 例に挙げましょう。今は時間帯に合わせて広告を入れ替えるくらい ですが、レーザー・レーダーを活用してリアルタイムに人の移動や 滞留を検知、処理するようになれば、その状況に合わせて、さらに 効果的な広告を配信できるようになります。
図2 : 大量データ処理のニーズ
このような大量データを短時間/リアルタイムに処理するため に、新たな技術が生まれてきています。コンピュータシステムの ハードウェアの動向として、コンピュータそのものの価格性能比の 大幅な向上やデータ記憶媒体としてのメモリやストレージが安価 に入手できるようになってきており、これを活用したソフトウェアの 技術として"並列分散処理"や"ストリームデータ処理"があげられ ます。
並列分散処理は、大量データを一括して実行するのではなく、 データを予め分割しておき、これらを複数のコンピュータで並列に 処理する技術です。並列処理することで、例えば、夜間バッチでの 集計処理が予定の終了時間を超過する"突き抜け"による他の業 務への影響を防止するほか、今後のビジネス伸長によってデータ 量が増加しても処理時間を厳守できるようになります。
ストリームデータ処理は、大容量メモリを活用してストレージに データを格納せずにリアルタイムに処理することで、タイムリーな 情報分析や意思決定の手段に用いられる技術です。例えば、リア ルタイムに設備故障を監視したり予兆を検知することで、的確な 予防保守を行い稼働率を上げることができるようになります。
また、並列分散処理で最近注目を浴びているのは、"Hadoop (ハドゥープ)"というApache Software Foundationで公開・開 発されているオープンソースソフトウェアです。Yahoo!、Amazon、 eBay、Facebook、Twitterといった大量データ処理が必要なベン ダーやプロバイダーがHadoopユーザーとして検索インデックス 作成やレコメンド処理などで利用するとともに、その推進を図って います。これまでは枯れた技術がオープンソース化されるケースが 多かったのですが、Hadoopは新たな発想と概念を持つオープン ソースといえます。
日立では以前から、大量データ分散処理システムに取り組んで おり、システム構築基盤製品群のCosminexus(コズミネクサス) として、バッチジョブ分散処理とストリームデータ処理を提供して います。
バッチジョブ分散処理(uCosminexus Grid Processing Server)は、既存のバッチ業務を複数のサーバに分割して並列 処理することで高速化を図ります。安価なサーバを業務量に応じ て柔軟に増やしていくことができ、IT投資の適正化も可能です。ま た、1台のサーバで障害が発生しても他のサーバで処理を再実行 できるため、障害を局所化してリカバリ時間を大幅に短縮します。
ストリームデータ処理(uCosminexus Stream Data Platform) は、絶え間なく流れ込んでくる大量データをデータの発生と同時 にメモリ上でリアルタイムに処理します。集計や分析の定義は、一 般的なデータベース言語SQL(Structured Query Language) を拡張したスクリプト言語CQL(Continuous Query Language) で容易に記述できます。さらに、分析した大量な元データは蓄積し ないためストレージ容量の削減効果も見込めます。
また、ソリューションとして「大量データ分散処理アセスメント サービス」があり、大量データの分析・活用方法のコンサルティン グや、Harmonious CloudのPaaS(Platform as a Service)を 利用して上記2製品に加えHadoopを含めた構築済みの環境を 提供し、お客さまの導入に向けた実機検証を支援するサービスを 提供しています。合わせて、大量データの処理技術を習得するた めの技術研修サービスも用意しています。
図3: 大量データ分散処理基盤のご紹介
おすすめコンテンツ