Overview - 何がすごい?

2016年はGoogle DeepMindが開発した音声合成用のネットワーク, WaveNetが話題になりましたが、その先をいく仕組みが今後公開されようとしています。Lyrebirdというカナダのスタートアップ企業が開発したテクノロジーです.

Abstract

In a world first, Montreal-based startup Lyrebird today unveiled a voice-imitation algorithm that can mimic a person’s voice and have it read any text with a given emotion, based on the analysis of just a few dozen seconds of audio recording. With this innovation, Lyrebird is going a step further in the development of AI applications by offering to companies and developers new speech synthesis solutions. Users will be able to generate entire dialogs with the voice of their choice or design from scratch completely new and unique voices tailored for their needs.

Technology

まずは以下のデモをお聞きください. オバマ、トランプ、ヒラリーとアメリカの政治家の声が見事に再現されています。

この仕組みのすごいのは、1分ほどの声の録音があればそこからその人の声質を再現できるという部分.さらに録音ファイルの音質は問わないとのこと.

スタートアップのファウンダーをみると、WaveNetの次にでてきた同様の音声合成のモデル SampleRNNの論文の著者が含まれていました。憶測ですが、SampleRNNの技術が使われているのかもしれません(未確認)。ただし、SampleRNNのときは音声の合成に実時間以上の時間がかかっていたはずですが、LyrebirdのWebサイトによると本システムは 1000文を0.5秒以内に生成するとのことなので、大幅なアップデートがなされている模様.

声質をコピーする音声合成システム – Lyrebird

Overview - 何がすごい?

Abstract

Technology

Links