Overview

MIDIのようなシンボリックな表現と音響合成を結びつけることで、コントローラビリティに優れた音楽生成を実現。
同じGoogle Magentaチームの深層学習ベースの音響合成に関する先行研究 DDSPとMIDIの生成を結びつけた研究。
MIDIとシグナルレベルの間の抽象度で、人がコントロールできるパラメータを提供したというのが一番の研究成果か。

Abstract

論文のabstract

Motivation

JukeboxやWaveNetのようにシグナルレベルで音楽を丸っと生成するモデルは、ブラックボックスになりがち ↔︎ MIDIはしょせん楽譜のようなもの。最終的に聴ける音楽にするところの細かい表現までは記述できない。 → MIDIでの音楽生成と深層学習ベースの音響合成の良いところどりができないか？

Architecture

Results

自動生成されたもの

自動生成 → 専門家がパラメータを調整した

Further Thoughts

ブラックボックスではなく、人が特徴を理解・コントロールできるかたちで波形レベルで音楽を生成できる仕組みを構築したという意味でとても重要な論文。

Links

HuggingFace上で試せるデモ

Midi Ddsp - a Hugging Face Space by akhaliq

Discover amazing ML apps made by the community

huggingface.co

Midi Ddsp - a Hugging Face Space by akhaliq

Google Magentaブログ

MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical Modeling

We are pleased to introduce MIDI-DDSP, an audio generation model that generates audio in a 3-level hierarchy (Notes, Performance, Synthesis) with detailed control at each level. MIDI is a widely used digital music standard for creating music in live performances or recordings.

magenta.tensorflow.org

MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical Modeling