Zhang, Y., Peng, W., Wandt, B., & Rhodin, H. (2020). AudioViewer: Learning to Visualize Sound. http://arxiv.org/abs/2012.13341
Overview - 何がすごい?
音をGANを使って画像化することで、聴覚障害者が音を理解できるようにしようとする試み。イーロン・マスクらが取り組んでいるような脳に電極をさすタイプの手法より、よっぽど簡単に実現できるのではという仮説から。
Abstract
Sensory substitution can help persons with perceptual deficits. In this work, we attempt to visualize audio with video. Our long-term goal is to create sound perception for hearing impaired people, for instance, to facilitate feedback for training deafspeech. Different from existing models that translate between speech and text or text and images, we target an immediate and low-level translation that applies to generic environment sounds and human speech without delay. No canonical mapping is known for this artificial transla- tion task. Our design is to translate from audio to video by compressing both into a common latent space with shared structure. Our core contribution is the development and eval- uation oflearned mappings that respect human perception limits and maximize user comfort by enforcing priors and combining strategies from unpaired image translation and disentanglement. We demonstrate qualitatively and quanti- tatively that our AudioViewer model maintains important audio features in the generated video and that generated videos offaces and numbers are well suited for visualizing high-dimensional audio features since they can easily be parsed by humans to match and distinguish between sounds, words, and speakers.
Motivation
話し言葉を文字に起こすことで、音を映像を使って伝えることはできるが、言葉のような内容を伝えることはできても、細かいニュアンスやトーンを伝えることができない。ましてや環境音のようなものは伝えようがない。そこで音をそのまま画像生成モデルの潜在空間にマッピングすることで、細かい変化を伝えることを試みる → 受け手側が次第に慣れて、音と内容のマッチングはそのうち学習してくれるだろうという仮説
前提
- 人は自然環境、特に人の顔の変化に敏感 → マッピングされる画像として、顔の画像を使う
- 人は対象の急激な変化に慣れない → スムーズな変化を実現するための制約の導入
- 頻出する音に対応する画像も頻出してほしい → CycleGANようなCycle consistencyを導入。音と画像の関係性を学習
- 音(言葉)の内容とスタイル(話者、トーン etc)を切り離す
Architecture
まず最初に音のEncoder-Decoder, 画像のEncoder-Decoderを個別に学習
前提4.のスタイルとコンテンツを切り離すために d次元の潜在ベクトル を話者を表す と コンテンツを表す の二つにわけ、これらをつなげて とする。
例えばaさんとbさんによる water
単語とaさんによる air
という単語の発話があったときに、
bさんの water
をエンコードしたときのコンテンツ に対応するベクトルと、aさんの air
の話者 をつなげた から、aさんが話した water
を再現するように学習する!
音と画像の潜在空間の構造を似せるために、Cycle Loss を導入
は 音のエンコーダでエンコードしたzのコンテンツ部分。音の潜在ベクトルから画像のVAEのデコーダでデコード、もう一度同じく画像のエンコーダ でエンコードしたものと の距離を小さくするように学習
Results
学習したモデルで単語を変換したときの画像
各単語の最初の音素の話者による違い. 確かに同じ音素が同じような顔、画像に変換されているのがわかる。
ユーザテスト - 二つのユーザテストを実施
Mathing question: 二つの画像を見せて同じ音(単語、音素)から生成された画像がどちらかを当てさせる
Grouping question: 同じ音(単語、音素)から生成された画像のペアを当てさせる
結果、どちらもランダムよりも遥かに良い成績に
顔のモデルの方(CelebA)が概ね結果が良いことに
Further Thoughts
- VJ的な要素として音と映像の潜在空間をつなげる方法はこれまでも提案されてきたが、聴覚障害者のための...という切り口は新しい
- コンテンツとスタイルの切り分け、潜在空間間の構造を近づけるためのcycle lossの設定などは非常に勉強になる!!
- 画像を大量にみることで果たして音を識別できるように人は学習できるものなのだろうか
Links
本研究で使っている音のVAE - SpeechVAE 出音が面白いから曲作りにも使えるかも