パソコン・メモメモ備忘録

気の向くままパソコン関係等で気になることを書き記す。毎日更新を目指す!

Google 複数の人の映像と音声から、話者一人の音声を抽出する技術

Gizmodo さんの記事。このデモ映像はなかなか感動的である。スライダーを動かすと、ざわざわした中で二人の人が話をしている中から、右か左の人の話している声だけが抽出されて聞こえてくる。かすかに他の音も聞こえるが、その人の直ぐ側で聞いているようなレベルである。

記事を読んでみると、AI(Deep Learning とか?)を使って、動画と音声を同時に学習させることで、一人の音声を取り出せているらしい。極端に言えば、読唇術音声合成を合わせたもの、みたいな感じなんだろうか。確かに、微妙に違和感のある音声にはなっているが、音声合成というよりかは、ちょっと加工された音声、的な印象ではある。かなり抑揚や感情を込めた喋り方でも、それが再現できているようにも思えるし。

こういう用途では、複数のマイクのマイクアレイとか用いて、ステレオ技術的に、特定の位置から発生した音声を取り出す、という技術もある程度開発されていたはず。マイクアレイが無くても、カメラがあれば、同様の効果が得られるなら、喋っている人の声、という限定があったとしても、かなり有用に思える。

後は、学習に、どんなデータがどれくらい必要か、といったところだろうか。一般的な学習データがあって、それに、話者特有の特徴データを加えると、高精度でできるなら嬉しい所だが。映像の方もどこまでお膳立てしたものを用意しないといけないのか。プロジェクトのページだと、タイトルに「Speaker-Independent」と入っているので、一般的な学習データで使えるという感じなんだろうか。素晴らしい。

数千時間の映像で学習させたそうな。どれだけの計算量がかかっているのか、と考えると気が遠くなるが、それができてしまう現在の PC やクラウドコンピューティングにはびっくりである。ほんとディープラーニングは、まだまだ想像もつかないような事ができるようにしてくれそうだ。過大な期待かも知れないが。はてさて。