ページの本文へ

Hitachi

ソフトウェア

第10回 地道に集めます 〜文書収集〜 〔後編〕

文書の 「収集」 に関して2回に分けてご紹介しています。

前回は検索したい情報はどこにあるかということについてご紹介しました。
ビジネスにおける情報環境の中で有用な情報はおおまかに次のような場所に
存在しているというお話をしました。

1.インターネットやイントラネット
2.共有ファイルサーバや個人のローカルPC
3.グループウェア(Lotus Notes/Domono、Microsoft Exchangeなど)
4.リレーショナルデータベース(HiRDB、Oracle、Microsoft SQL Serverなど)
  を使用したシステム

これらのさまざまな情報の中から欲しい情報を素早く得ることができれば
ビジネスの在り方が変わるといっても過言ではありません。
そのための方法の1つが 「情報を集めて検索できるようにする」 ことです。
今回の後編では、この 「検索できるようにする」 ために、
どのようにして 「情報を集める」 のかについてご紹介しましょう。

上にもあげましたように有用な情報は、
インターネットにあったり、ファイルサーバやグループウェアにあったり、
というように、さまざまな環境のさまざまな場所に存在しています。
そのため、環境や場所に合わせた方法で情報を集める必要があります。

インターネットやイントラネットの情報の場合は、「クローラ」 や 「スパイダー」 と
呼ばれる、自動的に各ホームページを巡回してページ情報を取得する機能を
持つソフトウェアにて収集することができます。
また、共有ファイルサーバやグループウェア、リレーショナルデータベースを
使用したシステムなどの場合は、それぞれのアプリケーションインタフェースを
利用して情報を収集することができます。

しかし、情報はただ収集するだけでは有効に活用することができません。
なぜなら情報には 「鮮度」 という重要なファクターがあるからです。
みなさまにもこんな経験がありませんでしょうか?
「検索してきた情報の内容がまったく違うものだった。」
「検索結果に表示された情報にアクセスしてみたら、すでに削除されていた。」

検索して得られた情報がこのようなことになっているようでは困ります。
追加・更新といった 「情報の変化」 に対応できないシステムでは、
情報の有効活用どころか、ビジネスチャンスまでも逃しかねません。
では、こうした 「情報の変化」 に素早く対応するにはどうすればよいのでしょうか?

このような場合は 「追加・更新されたもの」 だけを収集するのです。
追加・更新されたもの」 だけを収集対象とすることで、
情報の変化」 に素早く対応することが可能となります。

それでは 「追加・更新されたもの」 をどうやって判断しているのでしょうか?

インターネットやイントラネットの場合は、「クローラ」 や 「スパイダー」 と
呼ばれるソフトウェアが各ページの 「追加・更新」 の状況をチェックする
機能を持っています。「クローラ」 や 「スパイダー」 はこの機能を使って、
リンク情報を地道に追いかけながら「追加・更新されたもの」 だけを
収集しているのです。

このような 「収集」 手法を磨き上げた結果、さまざまな環境のさまざまな場所
にある「情報の変化」 に素早く対応できるようになったのです。
情報の 「収集」 の舞台裏では、実はこうした地道な技術が礎となっています。

それでは次回をお楽しみに。