サーベイ - Deep Learningを用いたサウンド合成

Entry
Simple Title
Huzaifah bin Md Shahrin, M. and Wyse, L. (2020) ‘Deep Generative Models for Musical Audio Synthesis’, arXiv.
Type
Paper
Year
2020
Posted at
May 24, 2021
Tags
sound

Generative Model

フォーマルに書くとすると、対象の確率分布 pdatap_{data} とモデルの出力の分布 pθp_\thetaの距離 dd をどう小さくするか

minθMd(pdata ,pθ)\min _{\theta \in M} d\left(p_{\text {data }}, p_{\theta}\right)

image

Autoregressive Models (自己回帰モデル)

事前のシーケンスから次のトークンを予測するモデル

p(X)=i=1np(xix1,,xi1)p(X)=\prod_{i=1}^{n} p\left(x_{i} \mid x_{1}, \ldots, x_{i-1}\right)

RNNベース

Dilated CNN

WaveRNN

24kHz 16-bitのオーディオを リアルタイムの x4 の速さで生成できる

WaveRNN
WaveRNN

Variational Autoencoder

Normalizing Flow Model

Normalizing Flow Model
Normalizing Flow Model
image

Generative Adversarial Networks

画像生成に比べるとまだあまり研究が進んでいない

なんだかんだこの辺が最新 (少なくとも2020年時点)

Engel, J. et al. (2019) ‘Gansynth: Adversarial neural audio synthesis’, arXiv. arXiv. Available at: http://arxiv.org/abs/1902.08710 (Accessed: 24 May 2021).

Conditioning 条件付けについて

当たり前だが、シンセサイザーとして使うには、音色をコントロールできるようにする必要がある。RNNなどの自己回帰モデルは、直前のシーケンスからの影響をもとに生成する → シーケンスの長さが長くなるにつれて、最初に指定したシーケンス(seed)の影響が消えていく

例えば... サイン波の合成。後半につれて音程がドリフト(ずれて)している。 ← Conditioningによってモデルが長期の時間依存を記憶する必要を軽減することができる

Manzelli, R. et al. (2018) ‘Conditioning deep generative raw audio models for structured automatic music’, in Proceedings of the 19th International Society for Music Information Retrieval Conference, ISMIR 2018, pp. 182–189. doi: 10.5281/zenodo.1492375.

MIDIでWaveNetをConditioning

Hawthorne, C. et al. (2018) ‘Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset’, arXiv. arXiv. Available at: http://arxiv.org/abs/1810.12247 (Accessed: 24 May 2021).

Wave2MIDI2Waveモデル

音色のマッピング - ピッチと音色のdisentanglement → ある音色とある音色の中間の音を作れる

Kim, J. W. et al. (2018) ‘Neural Music Synthesis for Flexible Timbre Control’, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Institute of Electrical and Electronics Engineers Inc., 2019-May, pp. 176–180. Available at: http://arxiv.org/abs/1811.00223 (Accessed: 24 May 2021).

image

Esling, P., Chemla–Romeu-Santos, A. and Bitton, A. (2018) ‘Generative timbre spaces: Regularizing variational auto-encoders with perceptual metrics’, in DAFx 2018 - Proceedings: 21st International Conference on Digital Audio Effects. DAFx18, pp. 369–376. Available at: http://arxiv.org/abs/1805.08501 (Accessed: 24 May 2021).

image

Engel, J. et al. (2017) ‘Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders’. Available at: http://arxiv.org/abs/1704.01279 (Accessed: 8 April 2017).

Music Translation

音のStyle Transfer

Mor, N. et al. (2018) ‘A Universal Music Translation Network’. Available at: http://arxiv.org/abs/1805.07848 (Accessed: 23 May 2018).

Kumar, K. et al. (2019) ‘MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis’, arXiv. arXiv. Available at: http://arxiv.org/abs/1910.06711 (Accessed: 24 May 2021).

次に読む

ずっと後回しにしてたやつ..

Engel, J. et al. (2017) ‘Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders’. Available at: http://arxiv.org/abs/1704.01279 (Accessed: 8 April 2017).

Hawthorne, C. et al. (2018) ‘Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset’, arXiv. arXiv. Available at: http://arxiv.org/abs/1810.12247 (Accessed: 24 May 2021).

Défossez, A. et al. (2018) ‘SING: Symbol-to-Instrument Neural Generator’. Available at: http://arxiv.org/abs/1810.09785.

Engel, J. et al. (2019) ‘Gansynth: Adversarial neural audio synthesis’, arXiv. arXiv. Available at: http://arxiv.org/abs/1902.08710 (Accessed: 24 May 2021).

Kumar, K. et al. (2019) ‘MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis’, arXiv. arXiv. Available at: http://arxiv.org/abs/1910.06711 (Accessed: 24 May 2021).

Further Thoughts

  • DDSP についての言及がなかった.