ページの本文へ

Hitachi

ソフトウェア

第4回 「文章」で探す 〜自然文検索〜

今回は 「自然文検索概念検索)」 という検索方式についてお話します。

まずはじめに 「検索する」 ということについて考えてみましょう。
みなさんはどういった時に 「検索」 しているでしょうか?
きっと、わからない言葉が出てきた時やもっと詳しく知りたい時に
検索する」 ことが多いのではないかと思います。

ちょっとこんな場合を考えてみましょう。

(お話 その1)

Aさんは 「環境保護」 に関するレポートを書こうとしました。
そのため、インターネットの検索サイトで必要な情報を収集しようとして、
キーワード に 「環境保護」 と指定して検索を実行しました。
すると、環境保護というキーワードが含まれる文書
たくさん表示されました。
しかし、あまり関係なさそうな文書がかなり混じっていたので
欲しい情報を見つけるのに時間がかかってしまいましたとさ。
おしまい。

こういった時に便利なのが 「自然文検索」 なのです。
自然文検索」 では、検索条件として 「キーワード」 を指定するのではなく、
文章」 を指定します。これを 「種文章」 と呼びます。

この 「種文章」 を指定して検索を実行すると、
種文章の内容によく似た文書」 や 「種文章と関連の深い文書」 を
探し出すことができます。このような検索を 「自然文検索」 といいます。

自然文検索」 を使った場合、先ほどのお話は次のようになります。

(お話 その2)

Bさんは 「環境保護」 に関するレポートを書こうとしました。
そのため、インターネットの検索サイトで必要な情報を収集しようとして、
種文章 に 「環境保護活動の1つにリサイクル運動があげられる」 という
調べたい内容を含んだ文章を指定して検索を実行しました。
すると、種文章の内容によく似た文書 がたくさん表示されました。
こうして、欲しい情報を含んだ文書を効率よく探し出すことができたので
レポートがさくさくと進みましたとさ。
めでたしめでたし。

また、日立高速全文検索シリーズがサポートする 「自然文検索」 では、
種文章」 と検索結果との類似性を 「スコア」 という考え方で数値化して
表現しています。

最もよく似ている文書のスコアを100として、スコアの高い順に
検索結果を表示できるため、「種文章」 の内容との関連度合いが
わかりやすくなっています。

このように、日立がサポートする 「自然文検索」 は非常に便利な検索機能なのです。

次回はちょっと趣向を変えて、「検索用データ」 についてお話する予定です。