ページの本文へ

Hitachi

ソフトウェア

データ統合の開発基盤(ETLツール) DataStage:機能紹介:QualityStageの機能紹介

名寄せを行う際、その精度に多大な影響を及ぼすデータの揺らぎ。例えば住所データでは、カナ住所と漢字住所のほか、全角・半角や新旧漢字の混在、都道府県データの入力漏れ、番地やマンション名の入力の有無など、データの揺らぎは多岐にわたります。
名寄せツール「QualityStage」は、住所データや名前データの表記の揺らぎを解消し、顧客データの品質を上げる4つの機能を提供。各機能を利用しながら、DataStageの開発画面から効率的な名寄せジョブ開発が可能です。

名寄せジョブ開発

データ傾向分析

単語の出現頻度やパターンなどのデータ傾向の分析を行います。
お客様のデータ品質を定量的に確認し、名寄せのためのキー項目として使用できるかを調べます。

データ傾向分析

出現頻度/パターンの分析 − 調査からわかる内容(例)

  • 23%の電話番号フィールドが空欄
  • 70%の郵便番号が空欄
  • 郵便番号の27%が5桁表示
  • 約17%が無効(“999”や“000”)の値
  • 18種類の電話番号の表記パターンが存在
  • 1500種類の住所の表記パターンが存在

標準化

データ構造やデータの揺らぎを吸収し、統一的な表記に変換します。
漢字の表記を統一したり、住所データを定型的なカテゴリに再配置することで、データを比較できる形式に変換します。

標準化処理

一般プログラムでは対応が難しい標準化の処理

  • 名前辞書を使って、”姓”と”名”を分割。
  • 旧漢字と新漢字を統一。
  • 表記パターンを解析し、住所データを細かく再分配。
  • 市町村データから都道府県データを補完。
  • カタカナ住所を漢字住所に変換。

標準化では、日本語の名前/住所などを標準化するためのアルゴリズムである「ルールセット」を各種提供。また、お客様のデータがルールセットで正しく標準化されたかをレポートする機能を提供します。

標準化結果の分析

標準化結果の分析を実施

標準化のルールセットを適用した結果、お客様の実データが、正しく標準化されているかを確認できます。

データの関連づけ

データの類似性を定量化し得点をつけ、高得点のデータを重複データとして関連づけます。 高得点のデータを重複データとみなすためのカットオフ値を設定できます。

データの関連づけ

データ類似性を定量化

比較対象の項目を選択。ウェイト比較法を用いて、データの類似性に得点をつける。

重複データの判断

重複データと判断できる高得点のデータにカットオフ(足切り)値をつける。実データの得点分布を視覚的に確認できるマッチングデザイナを提供。

最適データの選択

重複データの特定後、どのデータを残すかの選定を行うための柔軟なルールを設定できます。

最適データの選択

選定ルールを柔軟に設定

  • レコード単位、またはデータ項目単位に選定ルールを設定。
  • 選定ルールは、データ頻度、データ近時性(例:日付)、値の存在、または長さに基づき決定することが可能。
  • 複数のルールを設定することが可能。