📄

Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法

Entry
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法
Description
CLIPからオーディオ表現を抽出する手法であるWav2CLIPを提案。オーディオ分類・検索タスクで良好な結果を残す
Type
Paper
Year
2021
Posted at
October 31, 2021
Tags
soundcross-modalimage
image

Overview

  • CLIPからオーディオ表現を抽出する手法であるWav2CLIPを提案。
  • CLIPの視覚モデルをフローズさせ、そのモデルを用いて動画データから埋め込みベクトルを取得。対応したオーディオデータから同じ埋め込みベクトルを予測するモデルを訓練することで動作する。
  • Wav2CLIPは一般的でロバストなオーディオ表現を抽出し、音声の分類や検索などさまざまな音声タスクの性能比較のための強力なベースラインとしてよく知られているYamNetやOpenL3と比較して、オーディオ分類・検索タスクで良好な結果を示した。
  • オーディオ・画像で共有する埋め込み空間の定性的な評価のために、オーディオからのクロスモーダルな画像生成についても調査を行なった。
  • CLIPモデルは事前にテキスト・画像のペアで学習済みのため、テキスト・画像・オーディオ間のクロスモーダルな埋め込みベクトルを得ることができる!

Data

  • Audio Encoderの学習には、VGG-Soundデータセットを使用した。VGG-Soundデータセットは、Youtubeにアップロードされた動画から抽出した短い音声クリップ(10秒)のオーディオ/ビジュアルのクロスモーダルなデータセット。数は約20万個。
  • また、下の表にあるように、下流タスクの検証のために様々なデータセットを用意し、検証を行なった。
image

Architecture

image

  • 画像・テキストのペアデータで事前学習済みのCLIPモデルを特徴抽出器として使用して、動画データから視覚的な埋め込みベクトルを抽出。
  • 同じ動画のオーディオデータを使用して、得られた視覚的な埋め込みベクトルと一致するようにContrastive Learningを行い、Audio Encoderを訓練する。
  • 動画データはデータセットの中からランダムに5秒間の動画データをサンプリングし、各フレームごと(30FPS→30×5=150フレーム)に埋め込みベクトルを取得し、Mean Poolingを用いて動画の埋め込みベクトルとする。
  • VGGSoundベースラインを参考に、ResNet-18アーキテクチャをAudio Encoderとして使用。生のオーディオ波形(1D)からスペクトログラム(2D)に変換して入力する。
  • こうして得られたAudio Encoderを特徴抽出器として使用し、分類・検索・生成といった様々な下流タスクに流用することが可能。

Results

  • 音声分類やオーディオキャプションなどのタスクにおいて、他の様々なオーディオ表現モデルとの比較を行なった。
  • 他のモデルと比較しても、Wav2CLIPは同等以上の性能を示した。
image
image

  • 以前紹介したCLIPアートと同じ手法で、ImageNetで学習済みのVQGANモデルを画像生成モデルとして使用し、入力したテキスト/オーディオとマッチする画像を出力するように、VQGANの潜在空間を検索する。
  • 以下が生成した画像。テキスト/オーディオにマッチした画像が生成されている!(オーディオ付きのサンプルがプロジェクトページで確認可能)
  • image

Further Thoughts

  • テキスト・画像・オーディオがいずれも共有の空間へと埋め込み可能な点が非常に興味深い。画像の雰囲気に合わせたオーディオデータの検索など、クロスモーダルなアプリケーションへと応用が可能。
  • 画像→オーディオ、オーディオ→画像の機能は、今後映像編集ソフトなどに取り込まれていきそう。(Adobeなど)
  • Conclusionにも記述があったが、画像→オーディオ、テキスト→オーディオの生成ができるとさらに面白そう。

Links

  • CLIPについて

  • VGG-Sound

  • AudioCLIP (関連研究)

Wav2CLIPでは画像のCLIPモデルは固定していたのに対してこちらは画像やテキストのCLIPモデルの方も合わせて学習している。