📄

VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data

Entry

VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data

Simple Title

Vigliensoni, G., Mccallum, L., & Fiebrink, R. (2020). Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data. Proc. ICCC 2020.

Description

少量の学習データでも効率的に学習できるように、最近のダンスミュージックの特徴を生かしたアーキテクチャを採用

Type
Paper
Year

2020

Posted at
June 7, 2021
Tags
music
GitHub
https://github.com/vigliensoni/R-VAE
Project Page
https://ualresearchonline.arts.ac.uk/id/eprint/15853/1/VigliensoniMcCallumFiebrink_ICCC2020.pdf
Web上に実装されたプロトタイプのUI
Web上に実装されたプロトタイプのUI

Overview - 何がすごい?

少量の学習データで、今っぽいダンスミュージックのリズムが生成できるように考えられたVAEベースのリズム生成モデル。

Abstract

In this paper we present R-VAE, a system designed for the exploration of latent spaces of musical rhythms. Unlike most previous work in rhythm modeling, R-VAE can be trained with small datasets, enabling rapid customization and exploration by individual users. R-VAE employs a data representation that encodes simple and compound meter rhythms. To the best of our knowledge, this is the first time that a network architecture has been used to encode rhythms with these characteris- tics, which are common in some modern popular music genres. Introduction

Motivation

  • 少量の学習データ(数十のMIDIデータ)で学習できるリズム生成モデルを作りたい → 各ユーザ(ミュージシャン達)が自分で学習できる!
  • trapやjukeといった最近のダンスミュージックの特徴である三連符を組み合わせたリズム表現ができるように工夫

Architecture

  • 少量のデータで素早く学習するために VAEのレイヤーにはLSTMではなく、fully-connected feedforward layer(全結合層)を利用。
  • 三連符を組み合わせたリズム表現ができるように、16分音符単位のグリッドから、32分三連符を扱えるようにグリッドを細かくした (4分音符を24分割している)
  • Webブラウザ上で使えるインタフェースを実装
R-VAE-JS

This is R-VAE-JS a rhythmic model player and visualizer for R-VAE Press Go! to load a model and play Instructions: 1. Click to retrieve and decode a rhythm 2. Drag the mouse to interpolate rhythms 3. Change the Threshold to modify the number of onsets retrieved 4.

Results

  • 少量のデータから複雑なリズムが生成できることを確認
学習したリズム生成モデルのサンプル

Further Thoughts

  • 論文の中でも紹介されているが、内容的には徳井の研究にかなり近い... というか、徳井の元の研究では16分音符単位だったものを 32分の三連符単位に変えただけでは????

Links

ベースになっている徳井の研究

Towards democratizing music production with AI-Design of Variational Autoencoder-based Rhythm Generator as a DAW plugin

There has been significant progress in the music generation technique utilizing deep learning. However, it is still hard for musicians and artists to use these techniques in their daily music-making practice. This paper proposes a Variational Autoencoder\cite{Kingma2014}(VAE)-based rhythm generation system, in which musicians can train a deep learning model only by selecting target MIDI files, then generate various rhythms with the model.