ページの本文へ

Hitachi

企業情報研究開発

2016年1月20日

発表者からのレポート

サービスロボットによる音声対話や、コールセンタ通話の分析といった応用のため、音声認識技術の向上は欠かせません。IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) は2年に一度開催される音声認識技術の国際ワークショップであり、世界最先端の技術に触れることができます。筆者らのチームは、2011年以降本会議に毎回参加し、最先端技術の開発と適用を進めています。筆者は今回、2015年12月13日から17日までの5日間、米国アリゾナ州Scottsdaleにおいて開催された、ASRU 2015に参加しました。本会議では、MicrosoftやAmazon, Googleといった企業がスポンサーとなり、世界中の研究機関・企業研究者が集まって、音声認識と理解に関する最先端の手法について議論が行われました。


図1 提案手法の説明
拡大図

ASRU 2015では、参加機関が同じデータを用いて音声認識の精度を競うイベント"3rd CHiME Challenge(以下、CHiME3)"が行われました。CHiME3では、バス内・カフェ・交差点・歩行者エリアといった騒がしい環境でタブレットを用いて、英語の音声認識を行います。タブレットには6個のマイクが設置されているため、方向性に基づく音声強調技術が適用可能ですが、従来の音声強調技術とDeep Neural Networkに基づく音声認識では、66.6%の認識率しか達成できない非常に難しいタスクです。

筆者らは、CHiME3に参加し、雑音に強い音声認識に関して日立で培ってきた3つの技術(時変ガウスモデルに基づく音源分離・雑音に強い特徴量抽出・複数認識結果からの単語仮説選択)を組み合わせる方法を提案しました(図1)。提案手法は、従来方式で生じていた誤りを66.1%削減し、88.2%の認識率を達成しました。

今回筆者らは、音響モデルや言語モデルに関しては、従来提案されている手法を用いましたが、他機関の発表では、音響モデルと言語モデルそれぞれに改良を加えることでさらなる向上が達成できることが報告されました。今後、これらの改良と筆者らの手法に取り入れた最先端の音声認識技術を開発し、ロボットやコールセンタシステムへの適用を迅速に進めていく予定です。

(藤田 雄介    記)

関連論文

  • Y. Fujita, R. Takashima, T. Homma, R. Ikeshita, Y. Kawaguchi, T. Sumiyoshi, T. Endo, and M. Togami, "Unified ASR system using LGM-based source separation, noise-robust feature extraction, and word hypothesis selection," in Proc. IEEE ASRU, 2015.
  • ページの先頭へ