Overview

CLIPからオーディオ表現を抽出する手法であるWav2CLIPを提案。
CLIPの視覚モデルをフローズさせ、そのモデルを用いて動画データから埋め込みベクトルを取得。対応したオーディオデータから同じ埋め込みベクトルを予測するモデルを訓練することで動作する。
Wav2CLIPは一般的でロバストなオーディオ表現を抽出し、音声の分類や検索などさまざまな音声タスクの性能比較のための強力なベースラインとしてよく知られているYamNetやOpenL3と比較して、オーディオ分類・検索タスクで良好な結果を示した。
オーディオ・画像で共有する埋め込み空間の定性的な評価のために、オーディオからのクロスモーダルな画像生成についても調査を行なった。
CLIPモデルは事前にテキスト・画像のペアで学習済みのため、テキスト・画像・オーディオ間のクロスモーダルな埋め込みベクトルを得ることができる！

Data

Audio Encoderの学習には、VGG-Soundデータセットを使用した。VGG-Soundデータセットは、Youtubeにアップロードされた動画から抽出した短い音声クリップ（10秒）のオーディオ/ビジュアルのクロスモーダルなデータセット。数は約20万個。
また、下の表にあるように、下流タスクの検証のために様々なデータセットを用意し、検証を行なった。

Architecture

画像・テキストのペアデータで事前学習済みのCLIPモデルを特徴抽出器として使用して、動画データから視覚的な埋め込みベクトルを抽出。
同じ動画のオーディオデータを使用して、得られた視覚的な埋め込みベクトルと一致するようにContrastive Learningを行い、Audio Encoderを訓練する。
動画データはデータセットの中からランダムに5秒間の動画データをサンプリングし、各フレームごと（30FPS→30×5=150フレーム）に埋め込みベクトルを取得し、Mean Poolingを用いて動画の埋め込みベクトルとする。
VGGSoundベースラインを参考に、ResNet-18アーキテクチャをAudio Encoderとして使用。生のオーディオ波形（1D）からスペクトログラム（2D）に変換して入力する。
こうして得られたAudio Encoderを特徴抽出器として使用し、分類・検索・生成といった様々な下流タスクに流用することが可能。

Results

音声分類やオーディオキャプションなどのタスクにおいて、他の様々なオーディオ表現モデルとの比較を行なった。
他のモデルと比較しても、Wav2CLIPは同等以上の性能を示した。

以前紹介したCLIPアートと同じ手法で、ImageNetで学習済みのVQGANモデルを画像生成モデルとして使用し、入力したテキスト/オーディオとマッチする画像を出力するように、VQGANの潜在空間を検索する。
以下が生成した画像。テキスト/オーディオにマッチした画像が生成されている！（オーディオ付きのサンプルがプロジェクトページで確認可能）

Further Thoughts

テキスト・画像・オーディオがいずれも共有の空間へと埋め込み可能な点が非常に興味深い。画像の雰囲気に合わせたオーディオデータの検索など、クロスモーダルなアプリケーションへと応用が可能。
画像→オーディオ、オーディオ→画像の機能は、今後映像編集ソフトなどに取り込まれていきそう。（Adobeなど）
Conclusionにも記述があったが、画像→オーディオ、テキスト→オーディオの生成ができるとさらに面白そう。

Links

CLIPについて

画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」

"Perfume at Tokyo Dome, hyperrealistic"

createwith.ai

VGG-Sound

VGG-Sound

To download VGG-Sound, we provide a csv file. For each YouTube video, we provide YouTube URLs, time stamps, audio labels and train/test split. Each line in the csv file has columns defined by: # YouTube ID, start seconds, label, train/test split.

www.robots.ox.ac.uk

AudioCLIP (関連研究)

Wav2CLIPでは画像のCLIPモデルは固定していたのに対してこちらは画像やテキストのCLIPモデルの方も合わせて学習している。

AudioCLIP: Extending CLIP to Image, Text and Audio

In the past, the rapidly evolving field of sound classification greatly benefited from the application of methods from other domains. Today, we observe the trend to fuse domain-specific tasks and approaches together, which provides the community with new outstanding models. In this work, we present an extension of the CLIP model that handles audio in addition to text and images.

arxiv.org