ページの本文へ

Hitachi
お問い合わせお問い合わせ

ビッグデータ時代のデータ分析で、成功・失敗をわけるものは何か。

3.データ分析を成功へと導くデータパイプライン

データ分析がうまくいかない原因は、「データの下準備ができていない」ことと、「反復プロセスを継続できない」ことだとわかった。では、これらを解決してくれる仕組みはないのだろうか。

それが、データパイプラインという構想である。

企業内に散在するシステムは、扱うデータこそ異なるものの、データの下準備では同じような作業プロセスを経ている。そこに注目し、データの収集、変換・統合、ブレンドといった共通作業を一本化した構想がデータパイプラインである。この最大の特長は、データ分析における「手作業」を減らせること。最も手間が掛かっているデータの下準備を効率化することで、データ利活用が促進できるのだ。

図にすると、次のようになる。

データパイプライン

データパイプライン・フロー

静止画像を見る場合は、こちらをクリック

データパイプラインで、各工程は次のように改善される。

  • データエンジニアリング

    サイロ化されていた業務システムのデータは、容易にデータ形式を変換できるようになる。すべてのデータが簡単に統合できるようになるため、手作業の手間は劇的に軽減。また、これまでのようにデータソースが把握できない問題も解消され、必要なデータはすべて取り出せるようになる。ビッグデータを管理する環境も用意されているため、さまざまな非構造化データ・半構造化データも簡単に格納できるようになる。

  • データ準備

    既存の業務データとビッグデータを抽出して、これらのデータをブレンディングすることが容易になる。これまでのように、限られたデータソースから分析用データを準備するのではなく、複数のデータソースによるブレンディングが可能となるので、分析の幅が拡大。より有用な洞察へとつながり、ビジネスにおける競争優位の獲得にいかすことができるようになる。構築後に、新たにサイロ化されたデータが発生しても、簡単に変換・統合できるようになるため、増え続けていくデータの管理を心配する必要もなくなる。

  • 分析

    分析用のデータが容易に作成できるようになることで、データサイエンティストからのデータ要求や、多様化する分析ニーズにも迅速に対応できるようになる。その結果、分析現場へ迅速に分析用データを供給することが可能となる。

大量データの交通整理をしてくれるデータパイプライン

データパイプラインの優れた点は、これらの工程をあたかもパイプラインのようにシームレスにつなぎ、データ発生源から分析現場までのデータフローを全社で共有できることにある。これまでの運用のように、工程ごとに別々のツールを導入したり、手作業でのデータ共有に苦労したりすることがなくなり、全工程をスムーズに効率的に実施できるようになるのだ。

POINT

データ収集から分析までの全プロセスをシームレスにつなぎ、増え続ける多様なデータを分析現場へ迅速に供給できる「データパイプライン」

データパイプラインとは、例えるなら大量データの交通整理である。このデータパイプラインにデータを要求すれば、大量かつ絶え間なく流れているデータを交通整理してくれ、タイムリーに欲しいデータを取得でき、「データ分析」と「データの下準備」という反復プロセスが可能になるのである。まさに、データ分析に必要不可欠な基盤ではなかろうか。

優れた分析を可能にしてくれる、データパイプライン。これを部門最適にとどまらず、全社横断で構築することで、データ分析はより価値あるものとなり、その分析結果を新ビジネスの創生や業務の改善にいかすことで、競争優位性の獲得が期待できるであろう。

データパイプラインを構築するには?

データパイプラインは、優れたデータ分析を可能とする理想的な構想である。しかし、見よう見まねで構築しても決して成功はしない。次の3つの条件を満たしたデータパイプラインを構築することが、データ分析の成功へとつながる。

  1. ビジネスのニーズに応じて進化できるような、柔軟性が高いものであること
  2. データエンジニアリング、データ準備、分析の3工程が人やプロセス、ツールなどの仕組みによって分断されずに、密に連係していること
  3. 「反復」が同じことの繰り返しではなく、新たなニーズに対応しながら拡張・進化を繰り返せること

ホワイトペーパー「8項目の必須チェックリスト」は、データパイプラインの本格的な構築にあたって、データ接続やデータ準備、そのほかデータパイプラインの効率的な管理などに関する注意点や、考慮すべき点を詳細にまとめた情報となっている。

ホワイトペーパーダウンロード