ページの本文へ

Hitachi

ソフトウェア

第7回 フィルタリングの技術

今回は 「フィルタリング」 についてご紹介していきます。

フィルタリング」 とは簡単に言うと必要なものと不要なものを見分けることです。
ある対象から、あらかじめ指定しておいた条件によって、必要な情報を抽出すること、
または不要な情報を排除することです。このような機能を 「フィルタリング」 と呼んでいます。

フィルタリングされる対象は大きく2つに分けて考えることができます。

蓄積された大量の情報からフィルタリング

即時性が高い少量の情報からフィルタリング


では、それぞれどのように処理していけばよいのでしょうか。

まず 「蓄積された大量の情報」 から 「フィルタリング」 する技術
について説明します。

大量に蓄積された情報といえば、社内のサーバにある情報や
インターネット上にある情報を例としてあげることができます。
そのような大量の情報の中から必要な情報を探し出す方法として
インデックス」 の利用があります。

つまり、蓄積されている情報から検索用のインデックスを作成し、
そのインデックスを利用して必要な情報を瞬時に探し出す、
すなわちフィルタリングするというものです。
事前にインデックスを作成しておく必要がありますが、
大量の情報をフィルタリングするには最適の方法です。

次に 「即時性の高い少量の情報」 から 「フィルタリング」 する技術
について説明します。

少量で即時性の高い情報といえば、
メールで配信されるニュース情報を例にあげることができます。
次々と配信されてくる情報の中から必要な情報のみを
リアルタイムにフィルタリングするにはどうすればよいのでしょうか?

ニュース情報は次々と配信されてくるため、その度にインデックスを
作成してフィルタリングするという方法は現実的ではありません。
そのため、インデックスを作成せずにフィルタリングする技術が
必要となります。また、配信されてくる情報をニュースタイトルのような
属性レベルのフィルタリングでふるい分けることはメールソフトなどでも
可能ですが、「ニュース本文の中に含まれるキーワードを判断して
フィルタリング
」 するような技術はなかなか実現されていません。

これらの技術を形にした日立の製品として、
Text Search Filter Library」 があります。

Text Search Filter Library」 は、「インデックスを作成することなく、
指定された条件で情報をフィルタリングする
」 ことができます。
Text Search Filter Library を利用すれば、次々に配信されてくる
ニュース情報をリアルタイムでフィルタリングして必要な情報だけを
探し出すといったことが現実に可能となるわけです。

Text Search Filter Library はそのほかに、情報検索で検索条件として
指定したキーワードがどこに出現しているかを知ること(ヒット位置情報
の取得
)や、指定したキーワードからその同義語や異表記を自動的に
展開すること(同義語・異表記展開結果の取得)もできます。

例えば、「コンピュータ」 というキーワードについて、「コンピューター」、
「パソコン」、「PC」 といった同義語や異表記のキーワードも含めて
検索した結果を取得することができます。

御社のシステムや製品にも、うまくマッチするかもしれませんので
Text Search Filter Library」 にご興味がありましたら、
お気軽にご相談ください。