Entry
VAEベースのリズム生成モデル - Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data
Simple Title
Vigliensoni, G., Mccallum, L., & Fiebrink, R. (2020). Creating Latent Spaces for Modern Music Genre Rhythms Using Minimal Training Data. Proc. ICCC 2020.
Description
少量の学習データでも効率的に学習できるように、最近のダンスミュージックの特徴を生かしたアーキテクチャを採用
Type
Paper
Year
2020
Posted at
June 7, 2021
Tags
music
Overview - 何がすごい?
少量の学習データで、今っぽいダンスミュージックのリズムが生成できるように考えられたVAEベースのリズム生成モデル。
Abstract
In this paper we present R-VAE, a system designed for the exploration of latent spaces of musical rhythms. Unlike most previous work in rhythm modeling, R-VAE can be trained with small datasets, enabling rapid customization and exploration by individual users. R-VAE employs a data representation that encodes simple and compound meter rhythms. To the best of our knowledge, this is the first time that a network architecture has been used to encode rhythms with these characteris- tics, which are common in some modern popular music genres. Introduction
Motivation
- 少量の学習データ(数十のMIDIデータ)で学習できるリズム生成モデルを作りたい → 各ユーザ(ミュージシャン達)が自分で学習できる!
- trapやjukeといった最近のダンスミュージックの特徴である三連符を組み合わせたリズム表現ができるように工夫
Architecture
- 少量のデータで素早く学習するために VAEのレイヤーにはLSTMではなく、fully-connected feedforward layer(全結合層)を利用。
- 三連符を組み合わせたリズム表現ができるように、16分音符単位のグリッドから、32分三連符を扱えるようにグリッドを細かくした (4分音符を24分割している)
- Webブラウザ上で使えるインタフェースを実装
Results
- 少量のデータから複雑なリズムが生成できることを確認
Further Thoughts
- 論文の中でも紹介されているが、内容的には徳井の研究にかなり近い... というか、徳井の元の研究では16分音符単位だったものを 32分の三連符単位に変えただけでは????
Links
ベースになっている徳井の研究