ページの本文へ

Hitachi

ソフトウェア

第3回 単語を見分ける 〜異表記〜

前回は日本語の文章をいかにして単語の形に分けているのか
といったお話をしましたが、今回は単語を見分けること、
異表記」 についてお話します。

異表記」 というものを簡単に説明しますと、
「見た目がよく似ていてもコンピュータのシステムでは別のものとして
扱われてしまう、微妙に表記が違う単語」のことを指します。
これが文書検索システムにとってひとつの 「ワナ」 的な存在になっています。
それではその 「ワナ」 について具体的な例をあげてみましょう。


1.アルファベットのワナ

これはアルファベットに関係する 「ワナ」 です。
英語文を記述するときには大文字と小文字を使いますよね?例えばこんな感じです。

hitachi  Hitachi  HITACHI

この大文字と小文字が混じったものを 「アルファベット異表記」 と呼びます。


2.カタカナのワナ

これはカタカナの記述のしかたに関係する 「ワナ」 です。
カタカナで記述されるものにはこんな記述のしかたができるものがありますよね?

バイオリン  ヴァイオリン

このように「バ」と「ヴァ」、「ベ」と「ヴェ」といったカタカナでの記述の違いを
カタカナ異表記」 と呼びます。


3.全角・半角のワナ

これは英数カタカナに関係する 「ワナ」 です。
文字にはいわゆる全角文字と半角文字がありますよね?例えばこんな感じです。

hitachi  hitachi

このように全角文字と半角文字の違いを 「全角・半角異表記」 と呼びます。
ある意味これは日本語ならではの 「ワナ」 といったところでしょうか?

日立の全文検索シリーズでは、「アルファベット異表記」の大文字と小文字の扱い、
全角・半角異表記」の全角と半角の扱いについては、それぞれどちらかに統一して
検索することも、きちんと区別して検索することも、検索時に指定することが可能です。

また、「カタカナ異表記」のルールについては、国語審議会答申に基づいて
日立独自でルール化したものを採用しています。

そして、これらの変換のしくみや対応ルールといったものはすべて辞書ではなく
エンジン機能として組み込んでいます。

このようにして日立の全文検索シリーズでは異表記の 「ワナ」 も
軽くかわしているのです。

次回はちょっと変わった検索方法 「概念検索」 についてお話します。