機械学習を用いたドラムマシン – The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning.
The Infinite Drum Machine : Thousands of everyday sounds, organized using machine learning
2017
Overview - 何がすごい?
Google Creative Labと、Kyle McDonald氏, Manny Tan氏, Yotam Mann氏たちによる、機械学習の力を使って、日常の生活音を比較したり、ビートを簡単に作ることができるプロジェクト。
t-SNEと呼ばれるアルゴリズムを用いて似たような音同士をまとまりで配置し、次々と点と点の間をドラッグしていくことで、ビートを奏でることができる。
Abstract
Sounds are complex and vary widely. This experiment uses machine learning to organize thousands of everyday sounds. The computer wasn’t given any descriptions or tags – only the audio. Using a technique called t-SNE, the computer placed similar sounds closer together. You can use the map to explore neighborhoods of similar sounds and even make beats using the drum sequencer.
Motivation
音というのは複雑であり、多種多様である。名前などで括ることでそれぞれの音を差別化する事もあるが、実際名前で括られた音をそれぞれ比較しても印象が全く違うということはざらである。そこでt-SNEと呼ばれる手法を用いて、ラベリングをしない状態で何千もの日常的な音を整理し、各音のスペクトラムデータの次元を2次元まで圧縮、平面にマッピングしている。この2次元のマップではそれぞれの点が一つの音になっており、距離が近い音ほど波形や特徴が似ており、それぞれの点を選択しドラムシーケンサーとして演奏することができる。
Technology/System
t-SNE
t-SNE は、次元圧縮の手法の一つで、特に可視化に用いることを意図している。データの局所的な構造をうまく捉えることができるだけでなく、さまざまなスケールのクラスタなど、大域的な構造も保った可視化ができる点が特徴。
本プロジェクトではこのアルゴリズムを用いて各音のスペクトラムデータの次元を2次元まで圧縮し、平面にマッピングしている。距離が近い音ほど波形や特徴が似ているということになるので、次々と点と点の間をドラッグしていくことで、ビートを奏でることができるインタフェースになっている。
さらに詳しい内容は以下のリンクで詳しく行われているので、合わせて読むとよい。
Further Thoughts
t-SNEの次元圧縮のビジュアライズがとてもわかりやすく、ドラムシーケンサーとつなげることで多領域との組み合わせを感じさせるとても興味深いプロジェクトだと感じられた。音楽の知識がない人でも、マウスを動かすだけで簡単に曲を作ってみることができる、まさに機械学習のクリエイティブな使い方のお手本なのではないだろうか。