📄

GANによる音の生成 – Synthesizing Audio with Generative Adversarial Networks

Entry
GANによる音の生成 – Synthesizing Audio with Generative Adversarial Networks
Simple Title
Synthesizing Audio with Generative Adversarial Networks
Type
Paper
Year
2018
Posted at
February 16, 2018
Tags
GANsound
image

Overview - 何がすごい?

2017年ではGANによる画像生成の研究がホッとな研究トピックだったのに対し、サウンドの精製に関しての研究はそれ程進んでいませんでした。その理由としては、意味のある音(ノイズではなく認知として意識できる音)を生成するには、画像と比較した場合大量なサンプル数必要であることが挙げられます。そこで上記の音の特徴に合わせて既存のGANの考え方を拡張して、リアルな音の生成に成功した論文。

Abstract

While Generative Adversarial Networks (GANs) have seen wide success at the problem of synthesizing realistic images, they have seen little application to the problem of unsupervised audio generation. Unlike for images, a barrier to success is that the best discriminative representations for audio tend to be non-invertible, and thus cannot be used to synthesize listenable outputs. In this paper, we introduce WaveGAN, a first attempt at applying GANs to raw audio synthesis in an unsupervised setting. Our experiments on speech demonstrate that WaveGAN can produce intelligible words from a small vocabulary of human speech, as well as synthesize audio from other domains such as bird vocalizations, drums, and piano. Qualitatively, we find that human judges prefer the generated examples from WaveGAN over those from a method which naively apply GANs on image-like audio feature representations.

Motivation

DeepMindの音の合成モデルであるWaveNetのようにサンプルごとの時系列データとして音を扱うWaveGANと、スペクトログラムとして扱うSpecGANの二つの方式を提案し、比較を行っている。

Architecture

WaveGAN

画像生成のGANが流行るきっかけともなったDCGANを踏襲した上で音の特徴に合わせた変更がなされており、DCGANでは5×5の2次元の畳み込みのところを(下図左)、WaveGANでは25の1次元の畳み込みになっています。もともとのDCGANよりもレイヤーを増やすことで 16kHzのサンプリング周波数で1秒程度の音(=16384サンプル)を生成できるようにしています。

image

さらにDeconvolutionで生成した画像に格子状のノイズ(チェッカーボードノイズ)が乗るように、音にも周期的なノイズが入ってしまうため(下図上)、フィルターをかけています。このフィルターの係数もGANのGeneratorの一部として学習します(下図下)。

image

SpecGAN

こちらもDCGANのアーキテクチャを利用をしており、WaveGANと比較しやすいように、同じ128×128(=16384)の二次元のデータとしてスペクトログラムを生成します。

こうして生成されたスペクトログラムをもとに、標準的に使われている手法を用いて音に変換します(可逆的な変換ではなくあくまで音の”推定”になります) 。

Results

Amazon Mechanical Turkで被験者を募ってテストをしたところ、WaveGANの方が生成される音のクオリティや多様性が高かったということで、ここではWaveGANで生成した音を紹介します。

Googleのクラウド上で動かせるnotebookが公開されているので、気になる方は実際に動かしてみてください。

また、Web上で遊べるドラムマシンのデモを公開されているので

Further Thoughts

GANと言われると、存在しない人の顔の生成やウマの画像をシマウマ画像に変換するといったビジュアル方面で使われる印象が大きいですが、こういった音生成のアプローチはとても興味深いです。この技術を使えば独自のサウンドのサンプリングセットなどを生成して作曲にも使えるかもしれません。

Links

WaveGAN Demo