複数の人が同時に話していても、一人ひとりの音声区間を検出するEnd-to-End話者ダイアライゼーション技術を開発

発話の重なりを含む電話音声を用いた評価で従来法を上回る精度を達成

2019年12月16日
株式会社日立製作所

日立は、会議音声認識システムの精度向上をめざし、発話の重なりを含む音声から学習したニューラルネットワークにより、音声の重なりがあっても、各人の発話の始めから終わりまで(以下、音声区間)を検出するEnd-to-End^*１話者ダイアライゼーション^*2技術を開発しました。従来は、各人の音声が重ならないことを前提とした音声認識システムが用いられてきましたが、本技術の適用により、一つのマイクで録音した、発話の重なりがある自然な会話音声の認識精度が向上します。今回、一般的な電話音声データセットを用いた検証では、音声の重なりを考慮しない従来法を上回る精度を達成し、さらには、発話の重なりが多いシミュレーション音声でも、ダイアライゼーション誤り率^*3(以下、誤り率)が極めて小さくなることを確認しました。今後、日立は、本技術を会議音声の書き起こしサービスや音声対話サービスなどに活用することで、労働力不足の解消や労働生産性の向上に貢献していきます。

背景および取り組んだ課題

近年、音声認識の分野では、複数の人の会話音声を認識するため、音の到来方向や声の高さなど話者ごとに異なる特徴に基づいて各人の音声に分離する「音源分離」の研究が加速。
音源分離技術を適用するための前処理として、録音から各人の音声区間を検出する話者ダイアライゼーションが必要だが、従来方式では、発話の重なりがある箇所とない箇所、また、発話自体がない箇所が混在する自然な会話には未対応。

開発した技術

重なりを含んだ自然な音声からの学習を可能とするEnd-to-End話者ダイアライゼーション技術
次の発話までに時間が開いても話者を識別できる自己注意型(Self-attention型)話者特徴抽出技術

確認した効果

話者ダイアライゼーションの評価に広く用いられる電話音声データセット(重複率^*413%)において、従来の音声の重なりを考慮しない方式では11.5%の誤り率であったのに対し、本方式では9.5%に誤り率が減少。
発話の重なりの多いシミュレーション音声(重複率34%)では、従来方式が27.8%の誤り率となるのに対し、本方式では4.6%と極めて小さい誤り率となり、音声の重なりを考慮できることを確認。

発表する論文、学会、イベントなど

本成果の一部を2019年12月14日から18日にシンガポールで開催されるIEEE ASRU 2019で発表予定。

謝辞

本成果の一部はJohns Hopkins Universityとの共同研究によるものです。

開発技術の詳細

1. 重なりを含んだ自然な音声からの学習を可能とするEnd-to-End話者ダイアライゼーション技術

本方式では、ニューラルネットワークの出力として、話者の人数分の出力層を用意することで、重なりを含んだ音声に対応することができます。しかし、出力される話者の順序は決まっていません。この性質は、ニューラルネットワークの学習を妨げる要因となります。そこで今回、学習データにおける出力の順序に依存せずにニューラルネットワークを最適化できる「パーミュテーションフリー学習法」を適用しました。パーミュテーションフリー学習では、学習データにおける出力の順序の組み合わせを全て評価し、最も誤りが小さくなる出力順序に基づいてニューラルネットワークの更新を行います。これにより、初めて一つのニューラルネットワークで重なりを含んだ音声に対応する、End-to-End型の話者ダイアライゼーションを実現しました。

2. 次の発話までに時間が開いても話者を識別できる自己注意型話者特徴抽出技術

End-to-End話者ダイアライゼーション方式では、音声の時系列信号を入力し、音声区間の時系列を出力します。通常、時系列処理を行う場合には、過去の入力の記憶を更新しながら出力を行う再帰型ニューラルネットワーク(Recurrent Neural Network)を用いることが標準的です。しかし、話者ダイアライゼーションでは、次の発話までに時間が開いた場合も、同じ話者特徴を持つか異なる特徴を持つかを識別する必要があり、再帰型ニューラルネットワークの記憶に基づく識別には限界がありました。そこで今回、各時刻の特徴を全時刻の特徴と比較し、特徴間の類似性に基づいてより識別しやすい特徴に変換する自己注意機構を用いました。これにより、再帰型ニューラルネットワークでの性能を大幅に上回ることが出来ました。

図1　開発したEnd-to-End話者ダイアライゼーション方式

図2　従来の話者ダイアライゼーション方式

*1: End-to-End：従来入力と出力の間にあった複雑な学習システムの組み合わせを廃し、入力から直接出力を得るための一つのニューラルネットワークを学習する方式。
*2: 話者ダイアライゼーション：会話音声から話者ごとの音声区間を検出することで、「誰がいつ話したか」を特定する技術。
*3: ダイアライゼーション誤り率：話者ダイアライゼーションを評価する際に標準的に用いられる誤り率。(誤って音声区間を見逃した時間)＋(誤って音声区間を追加した時間)＋(検出された音声区間の話者の割当が誤っていた時間)を、正解の全音声区間の時間で割った値。
*4: 重複率：複数の人が同時に話している時間を、少なくとも一人が話している時間で割った値。

照会先

株式会社日立製作所研究開発グループ

研究開発お問い合わせフォームへ