ページの本文へ

Hitachi

ソフトウェア

第9回 地道に集めます 〜文書収集〜 〔前編〕

このコラムでは、これまで文書の 「検索」 に関していろいろとご紹介してきました。
文書を検索するためには、事前に文書から検索に必要なテキスト情報などを抽出し、
検索用のデータベースに登録しておく必要があります。今回はその前の段階として、
登録するデータを準備する1手段である 「収集」 にスポットをあててみたいと思います。

さまざまな情報環境に分散している文書の情報を迅速にビジネスに活かすためには、
こうした文書を効率よくタイムリーに 「検索」 できる環境を整えておくことが重要です。
では、検索したい情報はいったいどこにあるのか考えてみましょう。

ビジネスにおける情報環境を具体的に挙げてみると、
おおまかには次のようなものになるのではないでしょうか。

1.インターネットやイントラネット
2.共有ファイルサーバや個人のローカルPC
3.グループウェア(Lotus Notes/Domino、Microsoft Exchangeなど)
4.リレーショナルデータベース(HiRDB、ORACLE、Microsoft SQL Serverなど)
  を使用したシステム

まず 「インターネットやイントラネット」 ですが、
インターネットやイントラネットから情報を検索したいというニーズは、
世の中ではすでに当たり前のものになっていますね。
インターネットを検索する仕組みとしては
GoogleやYahooが一般によく利用されています。
これがなければ仕事にならないという人も多いのではないでしょうか。

次に 「共有ファイルサーバや個人のローカルPC」 ですが、
これも身近な検索対象としては欠かせないものだと思います。
しかし、共有ファイルサーバにいくら有益な情報を格納していても、
効率よく探すことができずに埋もれさせてしまっていては意味がありません。
個人のローカルPCの場合でも同様だと思います。
ハードディスクの容量増加と共に、個人のPCに日々蓄積されていく
情報量も増加する一方です。

また 「グループウェア」 については、
サーバ/クライアント型からWebクライアント型へと利用形態が変化してきましたが、
これまでグループウェア内に蓄積された情報は今後も使えるものばかりです。

最後に 「リレーショナルデータベースを使用したシステム」 ですが、
過去に企業内で構築された情報管理システムには必ずといってよいほど、
リレーショナルデータベースが導入されているのではないでしょうか。
このリレーショナルデータベースにもたくさんの情報が蓄積されており、
活用しない手はありません。

このように、ネットワーク上のさまざまな情報環境には
企業内で活用できる多くの資産が眠っているのです。
日立高速全文検索シリーズ*1では、こうしたさまざまな情報環境に
分散している文書の情報をシームレスに 「検索」 できるように、
それぞれの環境に合わせた 「収集」 の手段を提供しています。
また、日々更新、追加されていく文書を効率よく 「収集」 するためには、
収集する文書数や、処理時間、収集目的などによって、
最適な収集方法を選択することも、運用の上で重要なポイントですが、
日立高速全文検索シリーズでは、こうした点を踏まえた
きめ細やかな収集方法も提供しています。

では、いったいどのようにして文書を 「収集」 しているのでしょうか?(後編へつづく)

*1
収集機能に関しては、全文検索スウィート「Bibliotheca21」、文書管理用検索オプション「DocumentBroker Collector」のみのサポートになっております。