| HITACHI HOME | UP | SEARCH | HITACHI

インクリメンタルn-gramインデクス方式による
            ノイズのない高速検索
  〜Bibliotheca2 TextSearch〜




検索エンジンであるBibliotheca2 TextSearchが採用している検索方式は、日立独自の高速検索アルゴリズムである「インクリメンタルn-gramインデクス方式」です。この方式により、大量の文書情報を高速に、もれやノイズなしで検索できます。
インクリメンタルn-gramインデクス方式とは、連続するn文字からなる文字列に対して、それを含む文書の識別子(文書番号)と、その文字列が出現する位置を対応づけるインデクステーブルを生成し、それを基に検索タームを含む文書を検索する全文検索方式です。

1-gramインデクスの場合について、次に示します。




1-gramインデクスでは、文書中の1文字ごとに位置を示す番号を付けて、それぞれの文字の出現位置を保持しています。したがって、文書001については「微」「生」「物」が21、22、23の位置に出現するという情報が保持されています。ユーザが「微生物」という単語を検索した場合、文書001ではこの3文字が連続して順序どおりに存在するので、文書001が検索結果として返され、「微」が存在する21の位置も返されます。

インクリメンタルn-gramインデクス方式では、登録文書数が増加した時に検索時間が長大化するn-gramに対してだけそのn-gram長を拡張することにより、検索性能を維持するとともに、インデクス容量の極端な増大を抑えます。




大量の文書情報   〜Bibliotheca2 TextSearch〜




Bibliotheca2 TextSearchでは、0.5ギガバイト(約2万文書※)のデータが扱えます。
さらに、オプションのBibliotheca2 TextSearch Extensionを利用すると、Windows NT上にサーバシステムを構築する場合は最大5ギガバイト(約100万文書※)、UNIX上にサーバシステムを構築する場合は最大20ギガバイト(約400万文書※)のデータを一括して検索できます。


   注※ 1文書を5キロバイトとした場合の文書数です。


ページの先頭に戻る

[HITACHI HOME] [Bibliotheca2 HOME] [UP]
日立および他社の商品名称に関する記述 | 個人情報の取り扱い
mail
All Rights Reserved, Copyright (C)