📄

音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together

Entry

音源分離 – Deep Clustering and Conventional Networks for Music Separation: Stronger Together

Simple Title

Deep Clustering and Conventional Networks for Music Separation: Stronger Together

Type
Paper
Year

2016

Posted at
February 10, 2017
Tags
music
image

Overview

楽曲からボーカルトラックだけを取り出したり、複数の人が話しているのを録音したデータから、話者ごとに音を切り出したりといったいわゆる音源分離をembeddingの手法を応用した新しい手法。

Abstract

Deep clustering is the first method to handle general audio separation scenarios with multiple sources of the same type and an arbitrary number of sources, performing impressively in speaker-independent speech separation tasks. However, little is known about its effectiveness in other challenging situations such as music source separation. Contrary to conventional networks that directly estimate the source signals, deep clustering generates an embedding for each time-frequency bin, and separates sources by clustering the bins in the embedding space. We show that deep clustering outperforms conventional networks on a singing voice separation task, in both matched and mismatched conditions, even though conventional networks have the advantage of end-to-end training for best signal approximation, presumably because its more flexible objective engenders better regularization. Since the strengths of deep clustering and conventional network architectures appear complementary, we explore combining them in a single hybrid network trained via an approach akin to multi-task learning. Remarkably, the combination significantly outperforms either of its components.

Architecture

本研究ではChimeraNetというネットワークが用いられており、これはマルチタスク学習のネットワークがDeep Clustering HeadとMask-Interface Headという二つのヘッドを持つことに由来しています。

(右図が空想上の生物である"Chimera", 左図がChimeraNetのネットワーク構造を表す図)

image
image

Deep Clustering HeadとMask-Interface Headを用いたChimeraNetを用いることで、訓練データとテストデータが不一致であっても、Deep Clustering Head単体よりもさらに良い結果を得ることができるそうです。

Results

APIが公開されているので、手元の音源で試したところ、その結果は以下のようになりました。

オリジナル

ボーカルのみ

バックトラックのみ

Links

arxiv

https://arxiv.org/abs/1611.06265v1

Project Page

http://naplab.ee.columbia.edu/ivs.html

API

http://www.danetapi.com/chimera