中国の AI アナウンサー - パソコン・メモメモ備忘録

衝撃的かどうかは、まぁ、観る人に人によりけり？

もともと実在の人物の映像をベースに動画を生成しているみたいなので、ぱっと見リアルなのは当然。後は、喋りと動きがシンクロしているかどうか？それと音声合成の自然さだろうか。

個人的な印象としては、結構いい感じにはなっているが、やはり口の動きと音声とのシンクロがもう一歩かな、と。英語版を見たところ（日本語以外はちゃんと評価出来ないかもしれないが）発音していない瞬間も、口が喋っている感じに動いている所が何箇所かあるような。

この技術のすごいところは、人間がしてしまう無駄な動きをうまく再現出来ているところじゃないかと思ったり。なんか、微妙に感情がこもっているように見える。その辺がポイントかな。

実際に、不幸なニュースとか、明るいニュースとかの場合に、感情を抑えつつも、多少は、そのあたりを含めつつ、ニュースを読み上げるとかできたら、もう、人間のアナウンサーは、最初に必要なデータを取りこむところでしかいらないのかも。まぁ、時々は更新した方が良さそうではある。

後は、音声の自然さが重要か。小生には、英語だとうまく喋っているように聞こえてしまうが、ネイティブが聞くとどうなんだろう。日本語版も作って欲しいところだが、中国では必要性は低いか… 日本人を洗脳するために、頑張って開発したりして。

そういやどこまで自動でできているんだろう。人間が読む原稿さえあれば、次々に映像が生成できるのならすごすぎる。はてさて。