📄

GAN を使って音楽ジャンルを変換 – Symbolic Music Genre Transfer with CycleGAN

Entry
GAN を使って音楽ジャンルを変換 – Symbolic Music Genre Transfer with CycleGAN
Simple Title
Symbolic Music Genre Transfer with CycleGAN
Type
Paper
Posted at
October 12, 2018
Tags
musicGAN
Year
2018

image

Overview - 何がすごい?

GAN によるドメイン変換・スタイル変換の技術を使って,音楽のジャンルを変換することを可能とした研究。

Abstract

Deep generative models such as Variational Autoen- coders (VAEs) and Generative Adversarial Networks (GANs) have recently been applied to style and domain transfer for images, and in the case of VAEs, music. GAN-based models employing several generators and some form of cycle consistency loss have been among the most successful for image domain transfer. In this paper we apply such a model to symbolic music and show the feasibility of our approach for music genre transfer. Evaluations using separate genre classifiers show that the style transfer works well. In order to improve the fidelity of the transformed music, we add additional discriminators that cause the generators to keep the structure of the original music mostly intact, while still achieving strong genre transfer. Visual and audible results further show the potential of our approach. To the best of our knowledge, this paper represents the first application of GANs to symbolic music domain transfer.

Architecture

音楽ジャンルの変換を可能にしている技術のベースは、CycleGANと呼ばれる画像変換技術です。 CycleGANとは2つの異なるドメインの画像を互いに変換する技術として登場し、わかりやすい例として馬をシマウマに変換したり,シマウマを馬に変換したりすることができます。(ここでいうドメインとはある一種類の画像の集合のことを指します。)

image

本研究ではMIDI形式の音楽データをピアノロール形式(行列形式)のデータに変換して映像と同じ形で機械学習で扱える処理を行ってから、CycleGANを用いてジャンル変換を行なっています(Pop, Jazz, Classicを対象にPop ⇄ Classic, Jazz ⇄ Classic等)。

Results

以上の技術を用いてジャンル変換されたものがこちらです、The BeatlesのLet It BeをPopからClassicに変換したものです。(左が変換前、右が変換後)

変換結果の曲としての良し悪しは個々人それぞれかもしれませんが,Let It Be を Classic に変換するとこのような興味深い結果が得られるようです.

Let It Be 以外にも,Jazz からは Miles Davis の So What など,さまざまな楽曲でジャンル変換が試されています.この研究の YouTube チャンネルも視聴されると面白いかもしれません

Further Thoughts

この研究は,GAN を使って音楽をシンボルレベルでジャンル変換することを試みた最初の研究です.この技術が成熟すれば,楽曲の別ジャンルへのアレンジメントが容易になり,さまざまなアレンジメントの試行錯誤を手助けしてくれそうです.

MIDI 形式データでは各楽器に対応して複数のトラックを持つことができますが,学習をシンプルにするために,この研究では複数トラックをそのままでは扱わず,単一のトラックに落とし込んでから扱っています.そのため,パートが多く,単一トラックに落とし込むと煩雑になる,交響曲のような音楽は扱えていません.また,ドラムは他の楽器で表現することが難しいため,ドラムのトラックはそもそも除外しています.さらには,velocity (音の強度) や duration (発音の長さ) などの情報もまだ扱えていませし,楽曲の構造も 4/4 拍子に限定されています.

今後の研究で,複数の楽器を扱えるようになり,楽曲を構成する情報を余すところなく扱えるようになれば,よりダイナミックに,そしてよりリアルにジャンル変換することが可能になるかもしれません.その際には,より面白い変換例を見せてくれるでしょう.

Links

Github

arxiv

YouTube Channel