情感のある肉声への挑戦 高品位知的音声合成技術
株式会社 日立製作所 中央研究所 知能システム研究部 主管研究員 北原義典
| 情報伝達の手段として、音声は非常に大きな役割を果たす。日立が開発した高品位知的音声合成技術は、自然で肉声感の高い合成音声を、文章から簡単に生成、修正、編集できるようにしたシステムだ。これを利用することで、だれでも低コストで流ちょうな音声メッセージが作成できるため、幅広い分野や用途への活用が期待される。最近ではニンテンドーDS(R) 向けの教育用コンテンツでも採用され、話題を呼んでいる。この高品位知的音声合成技術の開発の経緯とその将来性を紹介する。 |
人間の肉声に迫る自然な合成音声を実現

合成音声というとどんなイメージを持つだろうか。おそらく大半の方が、機械的で人間味のかけらもない、SF映画などに登場するロボットのギクシャクした声を思い浮かべるのではないだろうか。
実際、合成音声とはそういうものだった。日立製作所中央研究所知能システム研究部の主管研究員である北原義典は、その実態を次のように説明する。
「日立が音声合成技術に取り組んだのは、今から四十数年前にさかのぼります。その当時に作られた合成音声は、『機械が言葉をしゃべる』と世の中に大きな衝撃を与え、現在でも米スミソニアン博物館にもその音声が保存されているようです。ただ、その後の技術の改良によって、それなりに聞き取れる言葉を発することは可能となったものの、人間の肉声にはなかなか近づくことができませんでした」
もっとも、一口に音声合成といっても多様な方式がある。
現在、駅のホームやデパートのエレベータなどでよく耳にする合成音声は、ほとんどがあらかじめ録音した音声をデジタルデータとして保持しておき、一部の言葉を差し替えて再生する「録音再生方式」によるものである。ただ、この方式では肉声感はあるものの、接続部分がぎこちなく一定のパターンの音声メッセージしか作れない。
これに対してニーズが高まっているのが、任意の単語や文章を柔軟に読み上げることのできる「規則合成方式」と呼ばれる音声合成である。一般に音声合成という言葉は、この規則合成方式を指す場合が多く、特に任意の文章を合成音声に変換する技術は、「テキスト音声変換」(TTS:Text-to-Speech)と呼ばれる。
中央研究所において北原らが取り組んでいるのが、まさにこのテキスト音声変換技術なのである。
その原理そのものは、非常にシンプルだ。まず、音声(人の声)を録音し、1個1個の文字に相当する音声(素片)を切り出す。例えば、五十音を読み上げてもらい、そこから「あ」や「い」といった単位で区切っていく。そして、この素片をしゃべらせたい文章にあわせて並べ替えればよい。
とはいえ、当然のことながら、そうした単純な仕組みだけでは肉声のような自然な発声を実現することはできない。「本当に人間らしい声を出せるようになったのは、ここ1、2年のこと」と北原は言う。そして、そのブレークスルーを成し遂げたのが、日立が開発した高品位知的音声合成技術なのである。
“高品位”な音声合成を達成するための技術ポイント

人間らしい声を実現するためのポイントとして、北原は「明瞭性」と「自然性」という2つの要素をあげ、次のように説明する。
「明瞭性は言語内容を伝える重要な要素であり、最適な音声の素片を効率よく選択し、なめらかに接続することで明瞭かつ肉声感のある高品位の音声合成を実現します。例えば、“ひたち”と発音させる際の“ひ”は、“ひまつぶし”よりも“ひたすら”という言葉から抜き出した素片を選択したほうがなめらかに接続できます。一方の自然性は、言葉に抑揚やリズムなどの韻律を適切に付加することで得られます。従来は、この処理をすべて計算によって実現しようとしていたのですが、なかなか思うような成果を上げることができませんでした。そこで私たちは、『肉声から学ぶ』という方針への大転換を行い、音声データベースを統計処理することで、自然な抑揚とリズムを持った音声を合成することに成功しました。この技術をさらに進化させ、イントネーションやリズムなどをより細かく制御することで、喜びや悲しみなどの感情を表現することも可能となります」
もう1つ、テキスト音声変換による音声合成技術においてクリアしなければならなかったのが、漢字かな混じりの文章をいかに的確に読み上げさせるかという課題である。例えば、次のような2つの文章を考えてみる。
「新宿に行った」
「会議を行った」
前者の“行った”は“いった”となり、後者の“行った”は“おこなった”となる。助詞の「に」と「を」の違いで読み分ければよいかというと、そう単純でもない。「この道を行った」のような文章では、助詞は「を」であるが、読みは“いった”となる。
日立の高品位知的音声合成は、こうした高度な読み分けを機械翻訳などで培ってきた言語知識処理技術を応用することで実現したのである。「単語間の関連性データを参照することで、複数の読み方のある語句であっても、前後の係り受け関係をもとに読みを正確に判定し、読み分けます」と北原は言う。この方法によれば、「最中(もなか)を食べている最中(さいちゅう)」なども読み分けることができる。
こうした読み分け性能を向上させることは、ニュースや株価、交通情報など、リアルタイムで配信されてくるテキスト情報を合成音声で読み上げるアプリケーションにおいても、きわめて重要な要件となる。
日立は、ここまで開発してきた高品位知的音声合成技術が、現時点でどの程度の読み分け性能を達成しているのかを客観的に評価するため、JEITA(電子情報技術産業協会)の制定した「音声合成システム性能評価方法」に沿って、ニュース文章273文の4635文節について測定を実施した。この結果、文節正読率は99・8%となり、業界でトップクラスの読み上げ性能を有していることが確認できたという。
機関誌「Uvalere(ユーヴァレール) Vol.7より
取材・文=小山健治(ジャーナリスト) 写真=吉江好樹
記載の情報は取材時点のものです。
Page:現在のページは1ページ目です。/全体のページ数は2ページです。

