Entry

AIを仲介とする、画家の演奏者の即興パフォーマンス

Simple Title

Verma, P., Basica, C. and Kivelson, P. D. (2020) ‘Translating Paintings Into Music Using Neural Networks’.

Description

音楽とアルバムカバーの関係を学習したモデルをベースに、絵画と音楽を相互に変換するパフォーマンス

Type

Paper

Year

2020

Posted at

April 19, 2021

Overview - 何がすごい?

音楽とアルバムカバーの関係を学習したモデルをベースに、絵画を音楽に変換しようとするプロジェクト。画家と作曲家が共著者になっている点でもユニーク。

画家と作曲家を違う部屋に置いて、お互いが何をやってるか見えなくする。
画家が描いている絵にぴったりくる音楽を演奏者に聞かせる/演奏者が即興している音楽にあう絵を画家に見せるという形で、AIを通したインタラクションを誘発

というセッティングが面白い。

Abstract

Abstract. We propose a system that learns from artistic pairings of mu- sic and corresponding album cover art. The goal is to ’translate’ paintings into music and, in further stages of development, the converse. We aim to deploy this system as an artistic tool for real time ’translations’ be- tween musicians and painters. The system’s outputs serve as elements to be employed in a joint live performance of music and painting, or as generative material to be used by the artists as inspiration for their improvisation.

Motivation

そもそもインターメディアなパフォーマンスを行ってきた筆者(画家と作曲家)たち。単に描かれている絵の内容だけでなく、コンタクトマイクで拾ったブラシの音なども使う点に新規性あり。

Settings

(コロナのせいもあり) コラボレーター (画家と作曲家)が離れた場所にいて、お互いに何をやっているかを見ることができない状況。二人を繋げるのはAIのシステムのみ。

AIシステムにはあらかじめ音楽と絵画の作品のデータセットを持たせている。
リアルタイムの入力からデータセットの内で一番適したデータが選択される（絵画→音楽音楽→絵画)
アーティストはこのAIが選んだデータを手がかりに絵を描く・作曲/演奏する
観客からはアーティストが見ている/聞いているものはわからない

アーティストは同じ場所にいるまたは離れている

どのくらい音と絵が「マッチしているか」を常に表示する
アーティストはこの値を見ながら、そのままマッチした方向で進むか、それともあえて音と絵が食い違うようにするか、考えながら制作を進める

学習時のデータセットはアーティスト自身の作品を元に作られている (一部他のアーティストのものも)

Architecture

全体のシステム図

1. Sound ←→ Visual

学習にはMillion song datasetの楽曲とアルバムカバーを利用。アルバムカバーに曲の感情や

スタイルが反映されているものを選んで用いた。30000曲程度をススクレイプ。特定のアルバムカバーとそのアルバムに含まれている曲の距離を 0、アルバムカバーとそのアルバムに含まれている曲以外の曲との距離を1と設定。オーディオは各曲を4秒ごとに買ったお。ResNet-50を改変。音と絵画をインプットして、それが関連しているかどうかの二値分類を行うモデルにした。

2. Sound ←→ Sound

コンタクトマイクで音を拾って絵のブラシストロークの音をとる → 関連する音を探す。

スペクトログラムをインプットとして、AudioSetのカテゴリーを識別するモデルを作って、その最終レイヤーを音の特徴量として利用。

コンタクトマイクの音とあらかじめ集めた音楽のデータセットの音のそれぞれのアウトプットのユークリッド距離を用いて、一番近いものを選ぶような仕組みにした。

1と2の組み合わせによってパフォーマンスを実現

Results

周期的な筆捌き → リズミカルな音楽　ゆっくりした筆捌き → ロングトーンを含む音楽など関連性が見られた。

絵とそれに対応する音楽

例 #1

例 #2

Further Thoughts

技術的にはシンプル.
パフォーマンスのセッティングが面白い。
評価が難しい... 実際絵と音楽があまりあってないようにも感じるのだが...
スタンフォードでもこういう研究やってるのね

Links

AudioSet

AudioSet consists of an expanding ontology of 632 audio event classes and a collection of 2,084,320 human-labeled 10-second sound clips drawn from YouTube videos. The ontology is specified as a hierarchical graph of event categories, covering a wide range of human and animal sounds, musical instruments and genres, and common everyday environmental sounds.

research.google.com

Audio Set: An ontology and human-labeled dataset for audio events - Google Research

Audio event recognition, the human-like ability to identify and relate sounds from audio, is a nascent problem in machine perception. Comparable problems such as object detection in images have reaped enormous benefits from comprehensive datasets -- principally ImageNet.

research.google