パソコン・メモメモ備忘録

気の向くままパソコン関係等で気になることを書き記す。毎日更新を目指す!

汎用知的音声合成システム ボイスソムリエ ネオ

Web でお試しができる。確実に人間が喋っているのではないのは分かるが、これまで聞いた音声合成ソフトの中では一番自然な気がする。一番凄いのは、漢字かな混じり文を普通に読めることだ。漢字の読み方を知っている、という点では中高生以上かもしれない。恐れ入りました。が、「金粉」を「かねこ」と読んでくれた。きんぷんって読むほうが普通だと思うけどなぁ。

一番人間ぽくないのは、人間はもう少し細かくスピードを調整している気がする(句読点がなくても)。文節のつなぎ目とか。というか、人間の思考スピードの限界から、スピードを落とさざるを得ないとか、口の構造的に早くつなげられる発音とつなげられない発音があるとか。人間が音声認識する際には、そういう情報も使ってるんだろうな、と思った。

この辺りの専門家の人には当たり前のことだろうけど、実装は難しいのだろうか。

後、微妙に人間の発音では聞こえない音がうっすら混じっている気がする。これは、再生環境(スピーカとか)が悪いだけかも。