Entry

synth1B1 - 10億以上のシンセ音と、そのパラメータがペアになったデータセット

Simple Title

Turian, J., Shier, J., Tzanetakis, G., McNally, K., & Henry, M. (2021). One Billion Audio Sounds from GPU-enabled Modular Synthesis.

Description

なんと総時間は約126年分!! データセットを生成するためにpytorch上に実装された、GPUに最適化されたモジュラーシンセ torchsynthも合わせて公開。

Type

Dataset

Year

2021

Posted at

July 23, 2021

Overview

10億の4秒間のシンセサイズされた音とシンセのパラメータの情報がペアになったデータセット synth1B1 + このデータセットを生成するためにPyTorch上に実装されたGPUに最適化されたモジュラーシンセ torchsynth。

まだまだ音楽/音色のデータセットは十分な量がない → 生成した方が早い → 普通のCPUベースのシンセサイザーだと生成するのに時間がかかる (40億秒 = 126年! ) うえに、音色の多様性をコントロールするのも難しい → 微分可能な(=ニューラルネットワークで最適化可能)なGPUに最適化されたシンセサイザを作ろう！という流れ

We release synth1B1, a multi-modal audio corpus consisting of 1 billion 4-second synthesized sounds, paired with the synthesis pa- rameters used to generate them. The dataset is 100x larger than any audio dataset in the literature. We also introduce torchsynth, an open source modular synthesizer that generates the synth1B1 samples on-the-fly at 16200x faster than real-time (714MHz) on a single GPU. Finally, we release two new audio datasets: FM synth timbre and subtractive synth pitch. Using these datasets, we demonstrate new rank-based evaluation criteria for existing audio representations. Finally, we propose a novel approach to synthe- sizer hyperparameter optimization.

Data

10億の4秒間の音のサンプル + その音を合成するために使ったシンセ(torchsynth)のパラメータ → 実際にはデータをダウンロードするよりも、生成した方が早いので生成用のスクリプトが公開されていて、自分で生成してね、というかたちになっている。
サンプル (下)からも多様な音が生成されているのがわかる。

Tool

サンプル音を合成するために、GPUに最適化されたソフトウェアシンセサイザーを PyTorch上に実装。
torchsynthはv100 GPUでリアルタイムの　16200倍のスピードで生成できる (126年分が2.8日に)
シンセシスのパイプラインが微分可能なオペレーションで実装されている → Backpropagationでパラメータを最適化するこも可能！

生成された音の多様性について、他の音のデータセットとの比較も行なっている。

データセットの類似度は、MMD(Maximum Mean Discrepancy)を用いて比較。それぞれの音の距離 $d()$ の計算は、音の埋め込み表現を取得するための学習済みのモデル OpenL3を利用。

torchsynthのアーキテクチャ

データセット間の「距離」

$\operatorname{MMD}(X, Y)=\frac{1}{n n} \sum_{i, j=0}^{n} 2 \cdot d\left(x_{i}, y_{j}\right)-d\left(x_{i}, x_{j}\right)-d\left(y_{i}, y_{j}\right)$

このMMDのしきを評価関数として、1. torchsynthのデータセット内の多様性が増す (torchsynthのデータセット間の距離が遠くなる) 2. 他のデータセットの音の分布を近似する、の二つの目的に対して、Optunaを用いてハイパーパラメータを調整することも試した。

Applications

音色 → シンセのパラメータの予測
オーディオ → MIDIの変換
音色の認知に関する研究
オーディオのより効率的な埋め込み表現などなど...

Further Thoughts

わりと一般的なシンセサイザーの構造を利用しているので、この仕組みを使って推定したパラメータを本物のモジュラーシンセで使ってみても面白いかも
埋め込み表現を得るためのモデルOpenL3は色々な場面で使えそう！

Links

比較のために作った二つのデータセット

FMシンセ(Yamaha DX7のクローン)のパラメータと音色

Timbre Audio Dataset (DX7-clone synthesizer)

22.5 hours of synthesized audio using the open-source learnfm clone of the DX7 FM synthesizer, based upon 31K presets from Bobby Blue. These represent ``natural'' synthesis sounds---i.e.presets devised by humans. We generated 4-second samples playing midi note 69 (A440) with a note-on duration of 3 seconds.

zenodo.org

Timbre Audio Dataset (DX7-clone synthesizer)

Pitch Audio Dataset (Surge synthesizer)

3.4 hours of audio synthesized using the open-source Surge synthesizer, based upon 2084 presets included . These represent ``natural'' synthesis sounds---i.e.presets devised by humans. We generated 4-second samples playing at velocity 64 with a note-on duration of 3 seconds. For each preset, we varied only the pitch, from MIDI 21--108, the range of a grand piano.

zenodo.org

すぐに試せるGoogle Colab

Google Colaboratory

colab.research.google.com

Optuna - ハイパーパラメータの最適化のためのフレームワーク

Optuna - A hyperparameter optimization framework

Optuna is an automatic hyperparameter optimization software framework, particularly designed for machine learning. It features an imperative, define-by-run style user API.

optuna.org