📄

音源からそれぞれの楽器を分離するツール – SPLEETER

Entry
音源からそれぞれの楽器を分離するツール – SPLEETER
Simple Title
SPLEETER: A FAST AND STATE-OF-THE ART MUSIC SOURCE SEPARATION TOOL WITH PRE-TRAINED MODELS
Description
CDなどのミックスされた音源からボーカル、ピアノ、ベース、ドラムのようにそれぞれの楽器(トラック)の音を抽出できるツール
Type
Paper
Year
2019
Posted at
February 3, 2020
Tags
musicdj
image

Overview - 何がすごい?

CDなどのミックスされた音源からボーカル、ピアノ、ベース、ドラムのようにそれぞれの楽器(トラック)の音を抽出できる。

マスタリングなどで使われることの多いiZotopeや、VirtualDJやdjay ProといったDJソフトにもこの技術を使われている。

Abstract

We present and release a new tool for music source separation with pre-trained models called Spleeter. Spleeter was designed with ease of use, separation performance and speed in mind. Spleeter is based on Tensorflow and makes it possible to: • separate audio files into 2, 4 or 5 stems with a single command line using pre-trained models. • train source separation models or fine-tune pre-trained ones with Tensorflow (provided you have adataset of isolated sources). The performance of the pre-trained models are very close to the published state of the art and is, to the authors knowledge, the best performing 4 stems separation model on the common musdb18 benchmark [6] to be publicly released. Spleeter is also very fast as it can separate a mix audio file into 4 stems 100 times faster than real-time on a single Graphics Processing Unit(GPU) using the pre-trained 4-stems model. Spleeter is packaged within Docker which makes it usable as is on various platforms.

Dataset

Deezer独自の膨大な楽曲データセットを学習に使用しており、データセットサイズの大きさが先行研究との大きな差を産み出している。

Architecture

学習と推論はTensorflowで実装されており,CPU(Central Processing Unit)やGPUでコードを実行することができる。

このSpleeterには学習済みのモデルが3種類含まれており、

  • ボーカルとその他の楽器の音(カラオケ)の2トラックに分けるモデル
  • ボーカルとベース、ドラム、その他の4トラックへ分けるモデル
  • ボーカルとベース、ドラム、ピアノ、その他の5トラックへ分けるモデル

学習済みのモデル3種類はどれもU-Netとなっている。U-Netsとはencoder/decoder Convolutional Neural Network (CNN)とSkip Connection(恒等写像)を組み合わせた構造となっており、Spleeterでは12層(6層のencoderと6層のdecoder)のU-Netを利用している。

Results

100秒のステレオ音源を1秒以内に4つのSTEM音源に変換(分離)することを可能とし、大規模なデータセットを効率的に処理するのに非常に有効である。(GeForce RTX 2080 GPU *1, Intel Xeon Gold 6134 CPU @ 3.20GHz *2 使用時)

Further Thoughts

DJやアーティストの間で一時的に流行ったSTEM(Drums, Bass, Melody, Vocalの4つの音楽要素を含めた)音源があったが、すでに公開されていたりレコーディングベースで行われていたトラックでは使用することはできなかった。しかし、この技術を使うことですでにミックスされた音源でも後からSTEM音源にすることを可能とし、リミックスやDJなどの表現の幅をさらに広げることができると考えられる。

Links

Deezer HP