ページの本文へ

Hitachi

Pentaho

機能紹介

本ページ内の製品画像はPentahoのバージョンがV8の製品画像となります。
記載の仕様は、製品の改良などのため予告なく変更することがあります。

データ統合基盤(PDI:Pentaho Data Integration)

データ統合基盤は、ビッグデータの分析や利活用に必要不可欠なETL*ツールです。

クライアントツールのグラフィカルな環境で開発したETL処理を、Pentahoサーバーにアップロードして、本番実行します。
クライアントツールで開発・デバッグ・プレビューが完結するため、効率良くETL処理を開発できます。

*
ETL:多種多様なデータを抽出(Extract)・加工(Transform)・出力(Load)する処理や機能のこと。

データ統合基盤(PDI:Pentaho Data Integration)の仕組み

GUIによる開発

PDIのクライアントツールでは、データ取り込みや加工などのETLを構成するさまざまな部品が提供されています。
これらをドラッグ&ドロップで配置し、処理の流れに合わせて矢印でつなぐことで、ETL処理を視覚的に定義できます。
GUIを使ってプログラミングレスで開発できるため、ビジネス部門のユーザーの方でも容易に利用できます。

GUIによるETL処理の視覚的な定義

ETL処理のデバッグ実行

開発したETL処理は、クライアントツール上でデバッグできます。エラーが発生した部品をアイコンで特定し、メッセージを基に対処できます。

デバッグ時に処理の一部を実行したくない場合、矢印を非活性化すると、矢印の先の処理は実行されません。状況に合わせて、実行したい処理を選択・限定できるので、効率良く開発できます。

ETL処理のデバッグ実行

処理データのプレビュー

デバッグ実行した処理では、各部品の実行後のデータを部品ごとに確認できます。データの状態を細かく確認しながら開発することで、定義の誤りなどに早めに気づくことができます。
また、データベースに接続する処理では、クライアントツールの画面上で接続先のデータベースの状態をプレビューできます。SQLも実行できるため、簡単な操作であれば、専用ツールを使わずにデータベース操作を実行できます。

処理データのプレビュー

豊富な処理部品

Pentahoでは、データの入出力、ソート、集計、重複削除、ジョインなど、さまざまな処理を実行するための部品が300種類以上用意されています。
個々の部品は細かい処理単位で用意されているため、組み合わせることで複雑・高度な処理も実現できます。

300種類以上の部品

多様なデータ入出力

Pentahoでは、多種多様なデータ形式に対応しています。

  • リレーショナルデータベース(HiRDB、HADB*、Oracle Database、Microsoft SQL Server、PostgreSQL など)
    JDBCによるリレーショナルデータベースへの接続をサポートしています。JDBC3/4 接続が可能で、SQL92互換のあるJDBCドライバーおよびデータベースであれば、接続できます。
  • NoSQLデータベース(MongoDB、Cassandra、HBase など)
  • 各種ファイル(CSVをはじめとするテキストファイル、Excelファイル、半構造化データであるJSON、XMLファイル など)

また、AMQP (Advanced Message Queuing Protocol)やApache Kafkaなどのメッセージ連携技術と連携し、秒単位でのストリーミングデータ処理も可能です。

多種多様なデータ形式の入出力に対応

*
HADB:Hitachi Advanced Data Binder
HADBは、内閣府の最先端研究開発支援プログラム「超巨大データベース 時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする戦略的社会サービスの実証・評価」(中心研究者: 喜連川 東大特別教授/国立情報学研究所所長)の成果を利用しています。

マルチスレッド処理による処理の高速化


PentahoのETL処理では、各部品がデータを1行ごとに流れ作業で並列処理します。
各部品はマルチスレッドで実行されるため、マシンリソースを効率的に利用し、部品ごとにシングルスレッドで処理する場合と比べて、大量データを高速に処理できます。

時間がかかる特定の処理がある場合、その処理を多重化してCPUリソースを多く割くことで、さらに処理を高速化できます。

マルチスレッド処理による処理の高速化

ETL処理の再利用

クライアントツール上では、ETL処理の全体または一部をコピーして、ほかのETL処理で再利用できます。
また、よく使われるETL処理を関数化して、ほかのETL処理から呼び出すこともできます。
一度定義したETL処理を再利用することで、効率の良い開発ができます。

コピー&ペーストによる再利用

ETL処理のコピー&ペーストによる再利用

関数化による再利用

ETL処理のコピー&ペーストによる再利用

プロセスのフロー化

複数のプロセスをジョブとしてフロー化し、順序関係を制御できます。ジョブは、ETL処理と同様に直観的な操作で作成できます。
ジョブの作成では、Pentahoで用意されているジョブ用の処理の部品と、個別に開発したETL処理とを組み合わせて使用できます。
コマンドラインで任意の処理を実行する部品を使用することで、外部ツールとも連携できます。

フロー化による順序関係の制御

また、Pentahoのジョブ管理よりもさらに細やかにスケジューリング・エラーハンドリングなどの制御をしたい場合は、JP1/AJS3*などの運用管理ツールからETL処理を制御できます。JP1/AJS3のジョブネットからは、コマンドラインでPentahoサーバー上のETL処理を呼び出せます。

JP1/AJS3などによるETL処理の制御

*
JP1/AJS3:JP1/Automatic Job Management System 3

ETL処理およびジョブの運用

Pentahoサーバーでは、主にETL処理・ジョブの管理、ユーザーの管理、コンテンツの権限管理、ETL処理ジョブの実行スケジューリングを実施します。
Pentahoサーバーは、Webブラウザー、ETL開発用のクライアントツール、REST APIなどから操作できます。

ETL処理およびジョブの運用

各種技術との連携

ビッグデータ連携

HadoopやSparkといったビッグデータ関連技術との親和性が高く、HDFS(Hadoop Distributed File System)などのデータソースを入出力として利用できます。 MapReduceやSparkといった分散処理をPentahoのGUI上で定義して実行できます。

クラウド連携

AWSやAzureなどのパブリッククラウド上の仮想サーバーに、Pentahoをインストールできます(前提OSがインストールされていることが必要です)。 また、各種クラウドサービスと連携するための部品を使用して、Amazon S3、Google Cloud Storage、Amazon Redshift、 Amazon EMR、 Azure SQL Databaseなどのサービスと容易に連携できます。そのほか、JDBCやREST APIなとどいった汎用的なインターフェースによって、多くのサービスと連携できます。

R、Pythonとの連携

Pentahoは、RやPythonと連携するための部品を用意しています。これにより、RやPythonによるAI・機械学習のロジックをPentahoのETL処理に組み込めます。

各種技術との連携

ETL処理の自動作成

データの加工内容が同じ、かつ複数種類の入力データのETL処理を開発する場合、一般的なETLツールでは、入力データの種類ごとにETL処理を開発する必要があります。
Pentahoのメタデータインジェクション機能を使用すると、ETL処理のテンプレートとメタデータインジェクション機能を呼び出すETL処理の2つを開発するだけで、以降、入力データに応じたETL処理を自動作成できます。入力データが増減した場合も、ETL処理の追加・削除は不要です。

ETL処理の自動作成

データ分析基盤(PBA:Pentaho Business Analytics)

Pentahoのデータ分析基盤(PBA)は、データ分析におけるデータの可視化を目的としたBIツールです。
PBAでは、データを4つの形式で可視化します。ビジネス部門のユーザーはPentahoのサーバーにアクセスすることで、Webブラウザー上でレポートやダッシュボードの閲覧、操作、および作成ができます。

データ分析基盤(PBA:Pentaho Business Analytics)の概要

データ項目の多次元分析 〜Analyzer Reports〜

Analyzer Reportsでは、データ項目を多次元分析(OLAP分析)できます。
ブラウザー上での、ドラッグ&ドロップなどの直観的な操作のため、分析軸のドリルダウン、スライス、ダイスなどの操作や、データのグラフ化も容易です。

データ項目の多次元分析と可視化

ブラウザーで編集できるレポート 〜Interactive Reports〜

Interactive Reportsでは、ブラウザー上でのGUI操作で帳票形式のレポートを作成、閲覧できます。
インタラクティブな項目の追加、フィルタ条件の変更などが可能です。

ブラウザー上でのGUI操作で帳票形式のレポートを作成、閲覧

帳票形式のレポートの作成 〜Fixed Form Reports〜

Fixed Form Reportsでは、専用のクライアントツールで帳票形式のレポートを作成できます。
Interactive Reportsよりも表現のバリエーションが多く、詳細にレイアウトを調整できます。

帳票形式のレポートの作成

ビジネス状況の「いま」を俯瞰(ふかん) 〜Dashboard〜

Dashboardでは、各種レポートの情報をまとめて表示することで、ビジネス状況の「いま」を俯瞰的に参照できます。
ドラッグ&ドロップなどの直観的な操作で自由にレポートを配置、分析対象を対話的な操作で指定します。
また、ドロップダウンなどの作成により、ユーザーがフィルタ条件をインタラクティブに変更して閲覧できます。

各種レポートの情報の一括表示でビジネス状況の「いま」を俯瞰

ETL基盤とBI基盤の連携

データ統合基盤(ETLツール)とデータ分析基盤(BIツール)は次のように連携できます。

  • データ統合基盤で作成したデータをデータベースに出力することで、データ分析基盤のデータソースとして利用可能
  • データ統合基盤のETL処理結果のデータを他のデータベースに出力することなく可視化
    →データ分析基盤でデータを可視化する際にオンデマンドでETL処理が実行され、結果をサーバーのメモリー上で引き渡します。データソースとなるETL処理の実行時間が短く、データをリアルタイムに参照したい場合に便利な機能です。
  • データ分析基盤と同じ機能を持つ部品を使用することで、一部の操作を自動化
    → Analyzer Reportsの分析軸の定義・出力する部品や、定義済みのFixed Form Reportsの出力する部品を使用できます。

ETL基盤とBI基盤の連携

他社商標について

  • Adobe と PDF は、米国およびその他の国におけるAdobe社の登録商標または商標です。
  • Amazon Web Services、『Powered by Amazon Web Services』ロゴ、Amazon EMR、Amazon Redshift、Amazon S3、AWSは、米国および/またはその他の諸国における、Amazon.com, Inc.またはその関連会社の商標です。
  • Apache®、 Apache Hadoop 、Apache HBase 、Apache Cassandra、 Apache Kafka、Apache Spark、Hadoop®、および the yellow elephant ロゴ は、Apache Software Foundationの米国およびその他の国における登録商標または商標です。
  • Microsoft、 Azure、SQL Server、Excelは、マイクロソフト 企業グループの商標または登録商標です。
  • Mongo DB、「Mongo DB」ロゴは, MongoDB Inc.の商標です。
  • OracleおよびJavaは、オラクルおよびその関連会社の登録商標です。その他の社名、商品名等は各社の商標または登録商標である場合があります。
  • その他記載の会社名、製品名などは、それぞれの会社の商標もしくは登録商標です。