📄

LoopNet—ドラムループのサウンド合成

Entry
LoopNet—ドラムループの生成
Simple Title
Chandna, P., Ramires, A., Serra, X., & Gómez, E. (2021). LoopNet: Musical Loop Synthesis Conditioned On Intuitive Musical Parameters.
Description
音源分離のモデルで提案されたWave-U-Netのアーキテクチャを用いて、ドラムループをまるごと生成する仕組み
Type
Paper
Year
2021
Posted at
June 5, 2021
Tags
music
Wave-U-Net を利用したアーキテクチャ
Wave-U-Net を利用したアーキテクチャ

Overview - 何がすごい?

Abstract

Loops, seamlessly repeatable musical segments, are a corner-stone of modern music production. Contemporary artists often mix and match various sampled or pre-recorded loops based on musical criteria such as rhythm, harmony and timbral texture to create com- positions. Taking such criteria into account, we present LoopNet, a feed-forward generative model for creating loops conditioned on intuitive parameters. We leverage Music Information Retrieval (MIR) models as well as a large collection of public loop samples in our study and use the Wave-U-Net architecture to map control parameters to audio. We also evaluate the quality of the generated audio and propose intuitive controls for composers to map the ideas in their minds

Motivation

  • 最近の音楽ジャンルの制作は、ループ素材の組み合わせによるところが大きい (Ableton Liveなど)
  • 一方でAIを用いた音の生成は、単音単位がほとんど → ドラムループ単位での生成を試みる
  • ドラムの各音色(キック、スネア、ハイハット)の音量で条件付け

Architecture

アーキテクチャ

ロス関数

シンプルのreconstructionロス。STFTを利用したロス。FFT窓幅を細かいものから大きいものまで変えて、それぞれのロスの合計をとった マルチスケールのロスの三種類のロス関数でテスト。

Lrecon=E[x^x1]Lstft=E[x^x1]+E[STFT(x^)STFT(x)1]Lmulti=E[x^x1]+i=05E[STFTi(x^)STFTi(x)1]\begin{array}{c}\mathcal{L}_{r e c o n}=\mathbb{E}\left[\|\hat{x}-x\|_{1}\right] \\\\\mathcal{L}_{s t f t}=\mathbb{E}\left[\|\hat{x}-x\|_{1}\right]+\mathbb{E}\left[\|S T F T(\hat{x})-S T F T(x)\|_{1}\right] \\\\\mathcal{L}_{m u l t i}=\mathbb{E}\left[\|\hat{x}-x\|_{1}\right]+\sum_{i=0}^{5} \mathbb{E}\left[\left\|S T F T_{i}(\hat{x})-S T F T_{i}(x)\right\|_{1}\right]\end{array}

xx: オリジナルの信号  x^\hat{x}: 合成された信号

条件付け Conditioning

  • Time-varying Conditioning 時間変化する特徴 - ドラムの各音色(キック、スネア、ハイハット)の音量を、ドラムの採譜ツールで自動的に抜き出して条件付けに利用。

ドラムの採譜
ドラムの採譜

  • Global conditioning 全体の音の特徴 - ツールを用いて音の温かみ、シャープネス、明るさ、荒っぽさなどを解析。全体に対する条件付けとして利用。また12音階でのピッチの分布を示すHarmonic Pitch Class Profile(HPCP)をツールを使って算出。これらを全体の条件付けとして利用。

  • さらに全体の音量のエンベローヴで条件つけする仕組みも実装 ← 結果的にはあまり必要ない

Dataset

Results

生成結果

オリジナル #1

合成 #1

オリジナル #1 の各ドラムの特徴量
オリジナル #1 の各ドラムの特徴量

左がこのドラムループの

青がキック、オレンジがスネア、水色がハイハット

オリジナル #2

合成 #2

  • 音質の再現度を示す Frechét Audio Distance (FAD) (小さいほどよい) によると、スペクトログラムに対するマルチスケールのロスを適用して学習したモデル(かつエンベローヴの情報を与えない) が一番精度が良い (MULTI NOENV 3.35)
    • それでも単純にオリジナルのループ → スペクトログラムに変換 → Griffin-Limで音に再変換したもの(Griffin-Lim 1.26)に比べると悪い
image

Further Thoughts

  • オーディオのクオリティ的にはまだまだかな
  • 音楽情報処理関連のツールもたくさん紹介されていて有難い!
  • colabのノートブックでいじってみるのが一番わかりやすい
  • うまく誤用すると面白い音が生成できるのでは...
    1. と思って変なパラメータを入れてみたが... あまり面白い結果にはならない。

    2. 一般的なパラメータだと.

  • 次に読む - Ramires, A., Chandna, P., Favory, X., Gómez, E., & Serra, X. (2019). Neural Percussive Synthesis Parameterised by High-Level Timbral Features. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2020-May, 786–790. http://arxiv.org/abs/1911.11853

Links

すぐに試せるGoogle Colabのノートブック

この研究のベースになった単発のパーカッション音、ドラム音の合成

📄
パーカッション音の合成 - NEURAL PERCUSSIVE SYNTHESIS

オーディオのタイムストレッチ用のライブラリ (コマンドラインで叩けるのは便利)

ドラムの採譜

Southall, C., Stables, R., & Hockman, J. (2017). Automatic drum transcription for polyphonic recordings using soft attention mechanisms and convolutional neural networks. Proc. of the International Society for Music Information Retrieval Conference (ISMIR), 606–612.

ループ素材のテンポ推定

Wave-U-Net

Stoller, D., Ewert, S., & Dixon, S. (2018). Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation. Proceedings of the 19th International Society for Music Information Retrieval Conference, ISMIR 2018, 334–340. http://arxiv.org/abs/1806.03185

音質の評価指標 Frechet Audio Distance (FAD)

音の特徴を抜き出すためのツール

HPCPの算出に用いたツール

マルチスケールロスの提案

Engel, J., Hantrakul, L., Gu, C., & Roberts, A. (2020). DDSP: DifferentiabLE Digital Signal Processing. In arXiv. arXiv.