ページの本文へ

Hitachi

ソフトウェア

第8回 文書から抜き出す 〜テキスト抽出〜

今回は全文検索のソフトウェアになくてはならない
テキスト抽出」 についてのお話です。

Bibliotheca21 のような文書の全文検索のソフトウェアでは、
さまざまな 「形式」 の文書を検索することができます。
例えば、テキスト形式やMicrosoft Office形式、
PDF形式やHTML形式といった具合です。

通常そういった文書は、それぞれの文書の 「形式」 に対応した
ソフトを使って開きますよね?しかし、ほとんどの全文検索ソフトでは、
そのような 「形式」 に対応したソフトを必要としません。
なぜ必要としないのでしょうか?

それは 「テキスト抽出」 の機能を使用しているからなのです。

実のところ、文書を全文検索するために必要なのは、その文書に
どんな文字内容が書かれているかという 「テキストデータ」 だけなのです。
文字の修飾(大きさ、色など)や文書の体裁(段組、罫線など)に関する
情報は不要というわけです。

そこで、登場するのが 「テキスト抽出」 機能です。

テキスト抽出」 は文書から 「テキストデータ」 だけを抜き出して
しまう魔法のようなものです。この魔法にかかってしまえば、
さまざまな 「形式」 をしていた文書が、どれも同じように扱える
テキストデータ」 に変換されてしまいます。
テキストデータ」 であれば、全文検索用データとしての扱いも
楽々というわけです。

もちろん、日立高速全文検索シリーズでも 「テキスト抽出」 機能を
提供しています。

Document Filter for Text Search」 は、Microsoft Office形式を
はじめとして、PDF形式、一太郎形式、OASYS形式、DocuWorks形式と
いったさまざまな 「形式」 の文書から 「テキスト抽出」 するプログラムです。

例えば、日立のスケーラブルデータベース 「HiRDB」 に文書を登録して
いるシステムでは、「Document Filter for Text Search」 を利用して、
登録されている文書の実体ファイルから 「テキスト抽出」 を行い、さらに
HiRDB Text Search Plug-in Index Generator」 を利用して、
抽出した 「テキストデータ」 を自動的に全文検索用のデータとして
登録することができるため、文書の 「形式」 に悩まされることなく、
手軽に全文検索することができます。

このように全文検索ソフトウェアと 「テキスト抽出」 は、両輪の関係、
切っても切れない仲なのです。これからも続々と登場する文書の 「形式」 に
対して力を合わせていくことでしょう。