ページの本文へ

Hitachi

企業情報研究開発

2017年1月25日

発表者からのレポート

2016年12月13日から16日にかけて、アメリカのSan DiegoでIEEE Workshop on Spoken Language Technology (IEEE SLT) が開かれました。IEEE SLTは、2年に1回開かれる音声言語技術に関する国際ワークショップであり、音声認識、自然言語理解、音声対話、音声信号処理などの最先端の研究が発表されます。今回は102件の発表が採択され、活発な議論が行われました。


図1 発表ポスター
拡大図

わたしたちは、「Robust utterance classification using multiple classifiers in the presence of speech recognition errors」と題して、音声認識誤りに頑健な言語理解技術に関する研究成果を発表しました(図1)

近年、音声認識の精度は飛躍的に向上し、スマートフォン、ロボット、カーナビなどの入力手段として使われるようになりました。また、言語理解技術も発展しており、ユーザの自然な発話から、ユーザが実行したい機能の種類や、検索したいキーワードの抽出が高精度にできるようになりました。しかし、音声認識に誤りがあることを完全に防ぐことは困難です。そのため、音声認識結果に誤った単語があっても、ユーザが言ったことを正しく理解できる言語理解技術が必要となります。

わたしたちは、カーナビの音声入力において、ユーザの発話から、ユーザが実行したいカーナビ機能の種類を推定する発話分類に焦点をあて、音声認識誤りに強い発話分類手法を研究しました。


図2 提案技術の説明
拡大図

発話分類器は、多数の発話文例から機械学習によって構築します。わたしたちの手法では、まず、この発話文例のなかに、正しい文だけでなく誤りがある文も含めるようにしました(図2)。また、ユーザ発話の無加工の音声と、雑音を減らした音声の両方で音声認識を行い、それぞれの発話分類の結果を統合するようにしました。さらに、ユーザ発話の音声認識結果にある単語の表記だけでなく、単語の音素も手がかりとして、カーナビ機能の種類を推定するようにしました。

これらの手法により、音声認識誤りの有無にかかわらず、高い精度で発話分類をできるようにしました。自動車走行時のカーナビの音声操作を想定して実験したところ、本手法を入れることにより、発話分類誤りを55%削減できることを確認しました。

今後は、本技術をさらに発展させ、カーナビやロボットなどへの適用を進めていく予定です。

(本間 健    記)

関連論文

  • Takeshi Homma, Kazuaki Shima, and Takuya Matsumoto: "Robust utterance classification using multiple classifiers in the presence of speech recognition errors," Proc. IEEE SLT, 2016
  • ページの先頭へ