|
HITACHI HOME
|
UP
|
SEARCH
|
Bibliotheca2 TextSearch Q&A集
Q-1
Bibliotheca/TSとの違いは何ですか。
A-1
主な違いは
(1)従来より大量の文書を登録し検索することが可能
(検索方式を階層プリサーチ方式からインクリメンタルn-gramインデクス方式に変更)
(2)SGML(Standard Generalized Markup Language)構造化文書を登録し構造を指定して検索することが可能
(3)ヒット件数によるランキング付けが可能
です。
Q-2
n-gramインデクス方式とはどういうものですか。
A-2
n-gramインデクスとは、連続するn文字から成る文字列に対して、それを含む文書の識別子(文書番号)と、その文字列が出現する位置を対応づけるインデクステーブルを生成し、それを基に検索タームを含む文書を検索する方式です。
Q-3
Microsoft WordやMicrosoft Excelの文書も検索対象となりますか。
A-3
Microsoft WordやMicrosoft Excelの文書から予めテキストを抽出し、そのテキストを登録することで検索対象となります。
Q-4
SGML文書に対応しているとのことですが、文書毎に違うSGML構造を扱えるのですか。
A-4
1テキストデータベースに対して1テキストデータ構造が対応します。よって、SGML構造の中から検索の対象としたい構造を共通項として定め、その構造をテキストデータ構造として定義し、テキストデータベースを構築します。これにより違う構造を持った文書でも共通項とした構造における検索が可能となります。また、文書の特性から共通項を定めたくない場合は、1サーバに16個までのテキストデータベースを構築することが出来ますので複数のテキストデータベースを構築することで対応して頂くこととなります。
Q-5
Bibliotheca/TSはGroupmax Document Mananagerと連携しているが、Bibliotheca2は連携しないのですか。
A-5
Bibliotheca2は、Bibliotheca2 TextSearch Version 2よりGroupmax Document Manager Version 3 03-00以降と連携しています。ぜひ、Groupmax Version 3をご使用される場合はBibliotheca2 TextSearch Version 2をご使用ください。
Q-6
異表記検索とはどんなものですか。
A-6
異表記検索には、アルファベット異表記、カタカナ異表記、全半角異表記をサポートしています。それぞれの異表記は組み合わせて検索することもできます。
アルファベット異表記とは、大文字小文字のバリエーションを展開します。例えば、Maxに対してMAX、maxが含まれます。
カタカナ異表記とは、カタカナ特有の表記のバリエーションを展開します。例えば、バイオリンに対してヴァイオリンが含まれます。
全半角異表記とは、英数字やカタカナに対して全ての文字が半角文字(1バイト文字)と、全ての文字が全角文字(2バイト文字)を展開します。例えば、MAXに対してMAXが含まれます。
これらの異表記はアルゴリズムで展開しており、ユーザが定義する必要はありません。また、展開のための辞書が不要であることから新語の追加等で辞書に登録する等の手間がかかりません。なお、カタカナの異表記展開は国語審議会答申(1991年)に基づいてルール化したプログラムで実現しております。
Q-7
同義語検索とはどんなものですか。
A-7
同義語検索は、同義語辞書を必要とします。同義語として例えば、アメリカに対して米国やアメリカ合衆国を定義しおくと、検索タームにアメリカを指定すると定義された語を展開して検索します。同義語辞書はユーザが自由に定義できます。また、約11,000語の一般用語を定義した同義語辞書のオプション製品を用意しております。
Q-8
近傍条件検索とはどんなものですか。
A-8
2つの検索ターム間の距離を指定した検索を可能としています。例えば日立と研究所を検索タームとして指定し、この2つのタームの距離を4文字以内と指定すると、日立中央研究所や日立生産技術研究所がヒットし、日立システム開発研究所はヒットしません。
Q-9
ランキング検索とはどんなものですか。
A-9
文書検索時、複数の文書がヒットした場合、それぞれの文書に対し、得点を付与する機能や、得点により文書のソートを行う機能を提供します。本機能により、検索タームに対する関連度が高いと思われる文書を素早く探すことを可能としています。
Q-10
格納できる文書数および容量はどれくらいですか。
A-10
Bibliotheca2 TextSearchは、サーバあたりのテキストデータ登録可能容量を持っています。登録可能容量は、Bibliotheca2 TextSearch Serverだけの場合は0.1GBまでで、Bibliotheca2 TextSearch Extension(4種類有り)を追加した場合は、0.5GB/2.0GB/5.0GB/20.0GBと拡張することが可能です。これにより、例えば1文書を5kBとしたときの登録可能件数は、1サーバ当たり0.1GBの場合は2万件、0.5GBの場合は10万件、2GBの場合は40万件、5GBの場合は100万件、20GBの場合は400万件を登録することができます。
Q-11
ユーザアプリケーションプログラム(UAP)を作成することは可能ですか?
A-11
可能です。UAP作成に必要な情報は次の製品で提供しています。
Windows NT版:
Bibliotheca2 TextSearch Development Kit Version 2 又は
Bibliotheca2 TextSearch Server Library Version 2
UNIX版:
Bibliotheca2 TextSearch Server Library Version 2
Q-12
サポートしているプラットフォームは何がありますか
A-12
Windows NT 4.0 HI-UX/WE2 HP-UX 10.01 10.10 10.20 11.00 をサポートしており、Solarisにも対応する予定です。
なお、HP-UX 11.00対応には次のような制限事項があります。
・Bibliotheca2 TextSearch Gateway Version 2は未対応です。
・Bibliotheca2 TextSearch Server Library Version 2は、HP-UX 10.xxで作成したUAPを動作させるためには必要ですが、HP-UX 11.00上でUAPを開発すること、及びHP-UX 10.xxで作成したUAPのリコンパイルには対応していません。
Q-13
欠番
A-13
欠番
Q-14
登録の操作方法と性能を教えてください。
A-14
Windows NT版はGUI(グラフィカルユーザインタフェース)を用意しております。Bibliotheca2 TextSearchへの文書登録は、テキストデータを対象としていますので、Microsoft WordやMicrosoft Excelなどの文書を登録する場合は、予めテキストを抽出しておく必要があります。登録性能は、1KB/件の文書で平均で0.2秒です。
Q-15
OCRや紙の文書を検索させることは可能ですか。
A-15
文字認識の実施によりテキストデータ化をして頂くことが必要です。文字認識をサポートするものとして、株式会社日立超LSIシステムズのMY-QREADERと株式会社日立システムアンドサービスのMillemasseを組み合わせることでテキスト抽出が可能となります。
Q-16
文章をSGMLに変換する機能はありますか。
A-16
Bibliotheca2 TextSearchにはSGMLに変換する機能はありません。しかし、別製品のDocIntegra Converterで変換する手段があります。また、DocIntegra Converter用に変換ルールを作成するための文書管理テクニカルサービス(有償)を用意しております。
Q-17
Groupmax Document Manager以外の文書管理製品に格納されている文書を検索できますか。
A-17
文書管理製品に格納されている文書のテキストデータをBibliotheca2 TextSearchのテキストデータベースに格納し、Bibliotheca2 TextSearchのSDK(Software Development Kit)を使用して文書管理製品と連携するアプリケーションプログラムを作成することで可能となります。
SDKとして次の製品を用意しております。
Windows NT版
Bibliotheca2 TextSearch Development Kit
Bibliotheca2 TextSearch Development Kit Version 2
UNIX版
Bibliotheca2 TextSearch Library
Bibliotheca2 TextSearch Server Library Version 2
Q-18
あいまい検索はできますか。
A-18
Bibliotheca2 TextSearchは完全一致検索です。sarchと指定してsearchで検索するという文字誤り検索はできません。あいまい検索というのは、結果にノイズを含んだ検索を許していますが、Bibliotheca2 TextSearchでは基本的にノイズを含まない検索を高速に行う方法を採用しています。
Q-19
Windows NT版とUNIX版では機能差はあるのですか。
A-19
現状では、機能差はありません。ただし、実行性能はハードウェアに依存するためUNIX版の方が有利で、信頼性もOSに依存するためUNIX版の方が高いという差はあります。
Q-20
買ってきたらすぐに使えるというパッケージはありますか。
A-20
パッケージ商品は準備しておりません。しかし、Bibliotheca2 TextSearch Gatewayを使用すればUAPを作成しなくともテキストを登録し、WWW(World Wide Web)ブラウザで検索することは可能です。
Q-21
検索の速さは何によるものですか。
A-21
Bibliotheca2 TextSearchの実行性能はCPU性能とHDD性能に依存します。検索エンジンが早いのは、検索専用のテキストデータベース(n-gramインデクス方式)を使用して検索しているためです。
Q-22
検索ノイズがないというのはどういうことですか。
A-22
Bibliotheca2 TextSearchで言っている「検索ノイズがない」は、ヒットした文書には必ず検索タームとして指定した文字列を含んでいることを意味しています。「東京都(ひがしきょうと)」の検索時に「東京都(とうきょうと)」を検索ノイズとみなす場合は別です。「東京都(ひがしきょうと)」と「東京都(とうきょうと)」は文字列が同じなので区別できません。
Q-23
欠番
A-23
欠番
Q-24
n-gramインデクスと階層型プリサーチはどう違うのか?
A-24
階層型プリサーチは文字成分表で検索対象を絞り込んでから凝縮テキストおよびテキストを検索します。一方、n-gramインデクスは検索用テキストデータベースだけにアクセスします。そのため階層型プリサーチ方式では近傍検索のように必ずテキスト検索を伴う検索の実行時間は絞り込み量に依存して変動しますが、n-gramインデクス方式は常に高速に検索できます。但し、階層型プリサーチで文字成分表だけで検索する高速モードを使用すれば検索ノイズは発生しますが、n-gramインデクスよりも若干(0.1sと0.5s)早く検索することができます。
Q-25
Bibliotheca2 TextSearchとHiRDB Universal Serverとは何が違うのですか。
A-25
Bibliotheca2 TextSearchは全文検索専用のエンジンです。HiRDB Universal Serverは従来のRDBと文書管理、画像等を統合して管理し、SQL(Structured Query Language)で操作することができます。マルチメディアデータを使う場合はHiRDB Universal Serverを使用して頂く方が良いでしょう。
Q-26
欠番
A-26
欠番
Q-27
画像データは登録できますか。
A-27
Bibliotheca2は画像データを扱うための機能はありません。画像データを管理するプログラムを連携するためのUAPを作成する必要があります。画像データを扱う場合は、HiRDB Universal Serverの適用をお勧めします。
Q-28
RDB(Relational DataBase)とは連携はできますか。
A-28
Bibliotheca2 TextSearchはRDBとの連携機能はありません。UAPを作成する必要があります。RDBでBibliotheca2 TextSeachと同様の全文検索機能を提供するHiRDB Universal Serverを開発中です。これを使用すればSQLベースで全文検索システムの構築が可能となります。
−以上−
[HITACHI HOME]
[Bibliotheca2 HOME]
日立および他社の商品名称に関する記述
|
個人情報の取り扱い
お問い合わせ
ご意見・ご感想
資料請求
All Rights Reserved,
Copyright (C)