個人や部署によって日本語の表記は微妙に違ったりするものです。例えば、「コンピュータ」と表記する人もいれば「コンピューター」と表記する人もいます。HiRDB Text Search Plug-in は、そのような日本語のゆれも考慮して文書を検索します。 HiRDB Text Search Plug-in で使用できる代表的な検索オプションを次に示します。
キーワード検索
文書または文字列データに含まれるキーワードを検索条件に指定して検索できます。複数のキーワードを指定して、すべてのキーワードを含む文書(AND条件)、いずれかのキーワードを含む文書(OR条件)を検索することもできます。
同義語・異表記展開検索
検索条件として指定したキーワードの同義語(例.アメリカ、米国、USA)や、日本語特有の表記のゆれによる異表記(例.SKI、ski、Ski)も同時に検索。目的の文書を柔軟に探せます。
近傍条件検索
二つのキーワード間の文字数(距離)を検索条件に指定できます。例えば、「『最新』と『技術』の間の文字数が20文字ちょうどの文字列を含む文書」といった検索ができます。
重み付き検索
検索条件に複数のキーワードを指定するとき、それぞれの条件に対して重要度を指定できます。特に優先させたいキーワードとそれほど重要でないキーワードとを重み付けして検索できます。
ほかの列の検索条件との複合条件検索
キーワードを指定した検索条件に加えて、文書以外の情報を格納した列に対する検索条件を組み合わせて検索できます。例えば、文書を格納した列に加えて作成日の列がある場合、「『最新技術』が含まれ、かつ、1年以内に作成された文書」といった検索ができます。
このほか、検索条件同士の論理演算を指定する方法、特定の単語を含まない文書だけを検索する方法、構造化文書の構造名を指定する方法などがあります。
HiRDBは、SQL99*1をベースにして、文書、地図、画像といったデジタルコンテンツやその操作機能を容易に取り込めるプラグインアーキテクチャを採用しています。HiRDB Text Search Plug-in では、文書や文字列に対する複雑な操作もSQLで定義し、SQLを利用して検索することができます。
文書を検索する場合のSQLの指定例を次に示します。
SELECT COUNT(*) FROM reports WHERE contains(fword, '{"COMPUTER"}' ) IS TRUE
これは、表の「reports」の列に「fword」に文字列「COMPUTER」を含む文書の件数を調べる例です。HiRDB Text Search Plug-in の検索機能を利用するため、大量の文書を検索する場合に、SQLのLIKE述語よりも高速に検索できます。
HiRDB Text Search Plug-in は、プレーンテキストだけでなく、構造化文書のXML*2/SGMLも検索できます。構造化文書を扱うための抽象データ型(SGMLTEXT型)を提供しています。構造化文書には、テキスト情報に加えて、タグで規則付けられて表現される意味や構造を利用した検索も可能です。
たとえば、「タイトル」「作成者」「本文」の要素を持つXML文書に対して、タイトルに「予算」が含まれる文書だけを探すことができます。このとき、本文中で「予算」が言及されているだけの文書はヒットしません。
自然文検索(概念検索) HiRDB Text Search Plug-in Conceptual Extension
キーワードの代わりに文章や文書を検索条件に指定し、それを手がかりにその文章や文書と似た概念を持つ文書を検索できます。適切なキーワードが思い浮かばない場合や、思い通りの文書を探すのに時間がかかる場合に、「この論文と同じような内容の文書を見つけたい」「こんな感じの企画書はないか」といったあいまいな条件で検索できます。
英文検索 Text Search Enhancer for English
Text Search Enhancer for English を組み込んで英文検索用のインデックスを作成しておくことにより、日本語検索機能に加えて、英文検索特有の英単語検索、英単語派生表記展開検索、英単語語尾表記展開検索が利用可能になります。
全文検索用データ登録ユティリティ HiRDB Text Search Plug-in Index Generator
Microsoft WordやAdobe Acrobatなど、ビジネスでよく使われるアプリケーションで作成された文書を手軽に全文検索できるようにするためのユティリティです。HiRDB に格納された文書ファイルからテキストデータを抽出して、全文検索用のデータを登録しなおします。Word、Excel、一太郎、PDFなど、多くの形式に対応しています。対応する文書は、Document Filter for Text Search Version 3 がサポートしている文書の形式に従います。
全文検索用データ生成用ライブラリ Preprocessing Library for Text Search
XML文書の全文検索用データを生成するアプリケーションを作成するために必要なライブラリ機能を提供します。
テキストデータを登録する際に指定できる文字コードとして、Shift JISコード、EUCコードに加えて、Unicode(UTF-8*3)をサポートしています。