ページの本文へ

Hitachi

ビッグデータ×AI(人工知能)

Hadoop等の大量データ分散処理技術の概要 Hadoop等の大量データ分散処理技術の概要

近年、高速なインターネット回線の普及や各種センサー技術の進展などで、企業や社会インフラにおけるデータが爆発的に増大しており、大量データを短時間/リアルタイムに処理することで新しい価値が生まれます。

そのための技術として、Hadoopなどの並列分散処理基盤や、ストリームデータ処理技術に注目が集まっています。そこで、それぞれの技術の特徴と適用分野をご紹介します。

Hadoop

OSSの並列分散処理基盤および分散ファイルシステムの適用分野と特徴
  対応製品 適用分野 特徴
Hadoop OSSの並列分散処理基盤および分散ファイルシステム
  • 大量データを用いた新サービスの立ち上げ
  • 安価に試行版システム立ち上げたい場合
  • 大量ログデータを用いた分析処理の高速化、並列処理を隠蔽した開発容易性
  • 将来性あるOSSであり、世界中で企業システム適用が模索されはじめている

Hadoop の概要

Hadoopは、OSSの並列分散処理基盤および分散ファイルシステムから構成されます。

  • オープンソースソフトウェアコミュニティ Apache Software Foundationにて開発・公開されている、大量データを効率的に分散処理するためのソフトウェア基盤。
  • サーバを大量に並べ、並列処理を行うことにより、従来RDBMSで扱うことが難しかった大量データのバッチ処理を高速化することが可能。
  • 主なソフトウェアコンポーネント
    • MapReduce:長時間かかる処理を複数のマシンに分散させるフレームワーク
    • HDFS:複数のサーバのHDDを1つの巨大なボリュームに見せる分散ファイルシステム

MapReduceの処理イメージ

*
OSS : Open Source Software
*
RDBMS : Relational Data Base Management System
*
HDFS : Hadoop Distributed File System

バッチジョブ分散処理

バッチジョブ分散処理製品「uCosminexus Grid Processing Server」の適用分野と特徴
  対応製品 適用分野 特徴
バッチジョブ分散処理 バッチジョブ分散処理製品「uCosminexus Grid Processing Server」
  • データ欠損が認められないような厳密性が求められる処理
  • 大量でかつ分割可能なデータ(データレコード間に依存関係がない)
  • 並列化可能な繰返処理や逐次処理(プログラムを分割または再利用可)
  • バッチ処理を分散・並列実行して高速化
  • 基幹系にも対応できる高い可用性、障害の局所化など

ストリームデータ処理

大量データストリーム処理基盤製品「uCosminexus Stream Data Platform」の適用分野と特徴
  対応製品 適用分野 特徴
ストリームデータ処理 大量データストリーム処理基盤製品「uCosminexus Stream Data Platform」 リアルタイムなデータ活用
  • インメモリ処理と差分計算処理によって、大量データを高速処理
  • SQLライクなスクリプト言語(CQL)で分析シナリオを記述可能なため開発が容易