ページの本文へ

Hitachi

ソフトウェア

データ統合の開発基盤(ETLツール) DataStage:機能紹介:DataStageの機能紹介

DataStageは、企業内に散在する膨大で多種多様なデータを、ビジネスに活かせる情報に変換できるデータ統合の開発基盤(ETLツール)です。 既存システムのデータを抽出し、自由にデータを加工した後、ターゲットに格納する処理を視覚的に開発することができます。

「DataStageによるジョブ開発」の動画コンテンツをご用意しております。

DataStageの開発 イメージ ジョブの差分表示 へ 処理変更時の影響分析 へ ジョブレポート出力 へ レポート出力・影響分析 へ 運用管理ツールとの連携 へ パラレル実行 へ 大規模データの高速処理 へ ジョブのパッケージ化 へ リリースバージョン管理 へ ジョブのモニタリング へ ジョブの実行・停止 へ ジョブのコンパイル へ ジョブの実行・モニタリング へ 多様なデータ入出力機能 へ 豊富なデータ加工処理部品を標準提供 へ 簡単操作によるデータ加工処理の実装 へ データ統合処理をビジュアルに開発 へ テーブル定義の取り込み へ 様々なデータを活用 へ 保守・拡張 − レポート出力・影響分析 へ 本番 − 大規模データの高速処理 へ リリース − リリースバージョン管理 へ 確認・テスト − ジョブの実行・モニタリング へ 開発 − データ統合処理をビジュアルに開発 へ 開発前準備 − 様々なデータを活用 へ

DataStageではジョブ開発を効率よく行うためにプロジェクト内でジョブを管理し、チームで分担開発するための多様なプロジェクト管理機能をご用意しています。例えば、次のようなものがあります。

  • プロジェクトの追加・削除
  • プロジェクト内の開発物をエクスポート、他プロジェクトにインポート
  • OSのユーザーやLDAPで管理しているユーザーによる認証*1
  • プロジェクトに対する管理者、開発者、オペレータなどのアクセス権限の振り分け
  • 他ユーザが開発中のジョブをReadOnlyで参照可

これらの機能により、大規模な共同開発に対応できます。

*1
V08-50からOS/LDAPとDataStageとのユーザ情報一元化が可能になりました。
  • * LDAP:Lightweight Directory Access Protocol

開発前準備 − 様々なデータを活用

テーブル定義の取り込み

データベースのディクショナリ、COBOL COPY句、XMLファイルなどのテーブル定義情報を取り込むことができます。

  • * XML:eXtensible Markup Language

テーブル定義の取り込み

開発 − データ統合処理をビジュアルに開発

簡単操作によるデータ加工処理の実装

データ抽出・変換・集計などのデータ統合処理のジョブを、ドラッグ&ドロップとパラメータ設定の簡単なGUI操作で開発します。特にデータ加工処理では、データの突き合わせ、重複削除、集計、ソート、コード変換、クレンジングなどの部品や関数を豊富に提供。
データの流れを視覚的に把握しながら、データ加工処理を効率よく開発することができます。

  • * GUI:Graphical User Interface

開発画面

豊富なデータ加工処理部品を標準提供

データの条件分岐や重複削除、ファイル間の差分抽出、スタースキーマの更新データ作成など、高度な加工処理のための部品を標準で提供。ユーザーが独自に関数を作成して使用することもでき、複雑なデータ加工にも対応します。

豊富なデータ加工処理部品を標準提供

多様なデータ入出力機能

  • HiRDB、Oracle、Db2、Microsoft® SQL Serverなど、各種DBに対応。各種DBのローダを利用した高速ロードも可能。各種DBのローダにあわせて制御ファイル、データファイルを自動生成し、実行します。JDBCインタフェースもサポートし、幅広いDBを利用できます。
  • 文字コードセットを変換する機能を標準で持っており、メインフレーム系、オープン系など多くの日本語文字コードセット変換、各種システムのデータ連携・統合が可能です。
  • また、XMLデータ、Java™ プログラム連携、Webサービス連携にも対応し、幅広いデータを扱うことが可能です。

確認・テスト − ジョブの実行・モニタリング

ジョブのコンパイル

GUI画面で作成したデータ統合処理のジョブ定義をコンパイルし、実行可能な状態にできます。

ジョブの実行・停止

GUIによる簡単な操作でジョブの起動・停止が可能。また、ジョブは標準コマンドインターフェースから呼び出すことが可能なため、外部のプログラムから起動することも可能です。

ジョブのモニタリング

モニタ機能により、実行したジョブの実行時間や処理件数などのパフォーマンスをチェックできるほか、結果のグラフ表示やHTML形式でのレポート出力も可能です。

  • * HTML:HyperText Markup Language

ジョブの実行制御

リリース − リリースバージョン管理

ジョブのパッケージ化

開発したジョブはまとめてパッケージ化して、本番環境にリリース後、実行します。
リリース後にジョブの修正が発生した場合、再度パッケージの再ビルドを行うことで、更新履歴や差分情報を自動で出力・管理することができます。
例えば、本番稼動後にソースデータの形や量が変わりジョブを修正した場合、リリースした一連の処理の修正箇所を視覚的に把握できます。このビルドバージョンの履歴情報を利用することで、例えば、前バージョンのジョブに戻すといった処理も可能です。

ジョブのパッケージ化

本番 − 大規模データの高速処理

パラレル実行

大規模のデータを高速に処理するためのパラレル実行を容易に実現します。

  • データを自動的に分割し、並列で処理を実行することで、マルチプロセッサをフルに活用した高速処理を実現します。
  • パラレル実行の並列数は実行時に指定。ジョブを変更することなく、並列数を柔軟に変更できます。
  • DBのパーティション表と連携し、分割データを引き継ぐことができます。データの抽出・ロード処理とデータ加工処理でデータの再分割が不要です。

パラレル実行イメージ

運用管理ツールとの連携

統合システム運用管理「JP1」などの運用管理ツールから、DataStageのジョブを制御できます。運用管理ツールによる、きめ細やかなスケジューリング、エラーハンドリング、他処理との連携が可能です。

運用管理ツールとの連携

JP1連携により、高度なジョブ実行制御を実現

  • 休日は実行日を振り替え等きめ細かなスケジュール
  • 異常終了時に各種ポイントから再実行
  • ジョブの結果により後続の実行ジョブを切り替え
  • ファイル作成やメールの着信などをトリガとした実行
  • ジョブネット全体の実行状況をモニタリング
  • ジョブ全体の実行状態の予定・実績を管理 など

保守・拡張 − レポート出力・影響分析

ジョブレポート出力

作成したジョブからHTML形式のジョブレポートを自動生成。保守用ドキュメントとしてのジョブ設定書作成・修正の工数を大幅に削減できます。また、ユーザー定義のスタイルシートを使用して体裁のカスタマイズも可能です。

ジョブレポート出力画面

処理変更時の影響分析

テーブル定義やルーチンなどのジョブごとの使用状況を表示し、設定変更時の影響を分析できます。また、結果のグラフィック表示やHTML形式でのレポート出力も可能です。

影響分析・結果ビューアー画面

ジョブの差分表示

任意の2つのジョブの差分情報を表示し、差分情報から編集箇所を特定したり、別プロジェクトの同名ジョブとの同一性を確認できます。

ジョブの差分表示