Entry
音楽生成AIは本当に新しい音楽を生成しているか? 学習データをコピーしているだけではないか?
Simple Title
Bralios, Dimitrios, Gordon Wichern, François G. Germain, Zexu Pan, Sameer Khurana, Chiori Hori, and Jonathan Le Roux. 2024. “Generation or Replication: Auscultating Audio Latent Diffusion Models.” In ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1156–60. IEEE.
Description
音楽生成AIは学習データをコピーしているだけではないか? 学習データと生成されたデータを比較。
Type
Paper
Year
2024
Posted at
May 13, 2024
Tags
musicsound
Overview
テキストから音楽を生成するモデルが多数発表されているが、それらのモデルは本当に生成していると言えるのか、それともただ学習データをコピーしているだけなのか。定量的に調べる。
Abstract
The introduction of audio latent diffusion models possessing the ability to generate realistic sound clips on demand from a text de- scription has the potential to revolutionize how we work with audio. In this work, we make an initial attempt at understanding the inner workings of audio latent diffusion models by investigating how their audio outputs compare with the training data, similar to how a doctor auscultates a patient by listening to the sounds of their organs. Us- ing text-to-audio latent diffusion models trained on the AudioCaps dataset, we systematically analyze memorization behavior as a func- tion of training set size. We also evaluate different retrieval metrics for evidence of training data memorization, finding the similarity between mel spectrograms to be more robust in detecting matches than learned embedding vectors. In the process of analyzing mem- orization in audio latent diffusion models, we also discover a large amount of duplicated audio clips within the AudioCaps database.
Motivation
- diffusionモデルをベースにしたtext-to-audio, text-to-musicモデルが多数発表されているが、果たして本当に生成していると言えるのか、学習データをコピーしているだけではないか。
- 学習に使ったデータとdiffusionモデルで生成したデータを比較。どのくらい一致するか=コピーしているかを定量的に計測する。
System
- diffusionモデルとしては、AudioLDMをベースにしたTANGOを、AudioCapsで学習したモデルを利用
- 類似度の計算は対数メルスペクトログラムおよびCLAPの埋め込み表現を特徴量として利用.
- クエリとなる曲(生成された音)の特徴量 q に対して reference (学習データの音) r のcosine similarityをとる. 曲調によってはそもそも全体的によく似ていると言ったこともあり得るので、K番目までの近傍の曲の類似度の平均に重み β をかけたbias項を引いて調整
- 最終的に閾値 τ よりも大きな類似度を示したクエリを類似曲として抽出
Results
- 学習データの量を調整してテスト
- 学習データと同じプロンプトを使って生成
- 学習データが1000個で学習した場合
- 1000サンプル生成して、生成した音の90%程度が学習データ内の音のほぼ同一の複製だった
- 学習データの量が少ないときはかなり高い確率でoverfitすることが確認できた。
- 学習データが5000個の場合
- 5000サンプルを生成して、類似と判定されたのは178。そのうち30ほどがほぼ同一の複製 (0.6%)
- AudioCaps全体を使った場合
- 45000サンプルを生成して、2000 (4%)ほどが上記の条件に当てはまった。そのうち実際に聞いてみてほぼ同一とされたのは 10ほど (0.03%)
- 一番似ているとされた類似曲と元曲がどのくらい似ているか、学習データの量によってどう変化するか (上から学習データが少ない順)。学習データが多くなるにつれて違いが生まれているのがわかる。
- おまけとして、AudioCapsの中に学習データの重複が無視できない量で存在していることが判明
Further Thoughts
- 45000サンプルのうちの10サンプル/0.03%の複製を多いと見るか少ないと見るか….
- 商用でこういうモデルを使う時は著作権に留意する必要あり。
Links
- TANGOアーキテクチャ