Entry

AI生成楽曲を見破れ! SONICS - AI生成楽曲のデータセット＆識別モデル

Simple Title

Rahman, Md Awsafur, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, and S. Fattah. 2024. “SONICS: Synthetic or Not -- Identifying Counterfeit Songs,” August. http://arxiv.org/abs/2408.14080.

Description

SunoやUdioで生成した楽曲を識別するためのフレームワーク

Type

Paper

Year

2024

Posted at

April 25, 2025 2:27 PM (GMT+9)

Overview

SunoやUdioで生成された楽曲を識別するための効率的なアーキテクチャと学習データのデータセット

Abstract (機械翻訳)

AIによる楽曲生成の急速な発展は、エキサイティングな可能性と課題を提示しています。これらのツールは音楽制作を民主化する一方で、芸術的完全性とコンテンツ管理のために、人間が作曲した楽曲とAIが生成した楽曲を区別する能力が必要不可欠となっています。偽造楽曲検出に関する既存の研究とデータセットは、歌声ディープフェイク検出（SVDD）のみに焦点を当てており、そこではボーカルはAIで生成されているものの、伴奏音楽は実在の楽曲から取得されています。しかし、この手法は、すべての要素（ボーカル、歌詞、音楽、スタイル）がAIによって生成される可能性のある現代のエンドツーエンドAI生成楽曲には不十分です。さらに、既存のデータセットには、歌詞と音楽の多様性、長時間の楽曲、オープンな偽造楽曲が不足しています。これらの課題に対応するため、私たちはSONICS†を導入します。これは、SunoやUdioなどの人気プラットフォームから収集した49,000以上の合成楽曲を含む、97,000以上の楽曲で構成される、エンドツーエンドの合成楽曲検出（SSD）のための新しいデータセットです。さらに、既存の手法では見過ごされてきた aspect である、効果的な真贋判定のための楽曲における長期的な時間依存性のモデリングの重要性を強調します。これらのパターンを捉えるため、私たちは新しいモデルSpecTTTraを提案します。これは、従来のCNNやTransformerベースのモデルと比較して、競争力のある性能を維持しながら、最大3倍の高速化と6倍のメモリ効率を実現します。最後に、現在の研究における別の欠点に対応するため、AIベースと人間による評価の両方のベンチマークを提供します。

Motivation

AI生成楽曲の氾濫は(人間の)アーティストに不利益をもたらす可能性が高い

特にSunoやUdioのようなプロンプトのみで多様な音楽が生成できるモデルが一般化した今は特にその危険性が高まっている。

AI生成楽曲かどうかを識別する安定した仕組みが必要!

System

AI生成楽曲のデータセットを構築

SONICS - 97000曲のデータセット

49000曲 - SunoとUdioで生成したAI生成楽曲 (AI生成曲なので著作権はない)

歌詞も曲もAI生成のFull Fakeと人が書いた実在する曲をベースにAI生成するHalf Fakeの二つの手法でSunoとUdioで生成
Full Fake: あらかじめ用意した多数のトピック、ジャンル、ムードを組み合わせて、LLM(GPT-4o)で歌詞と曲のスタイルをを生成
Half Fake: 実在する曲の歌詞をベースにベースに似て非なる歌詞を作る。曲調はGeminiで言語化し、音楽生成のスタイルとして利用

49000曲 - YouTubeで集めた本物の曲 (=人間が作った曲)

GeniusのWebサイトからスクレイプした情報を元に、YouTube上で曲を検索

それぞれの曲は平均で145秒ほど

今回のターゲットは、Suno (v2, v3, v3.5) Udio (Udio-32, Udio-130) のみ

それ以外のAI音楽生成システムは考慮していない

提案されrたSpectro-Temporal Tokens Transformer (SpecTTra)

判別器のアーキテクチャ - SpecTTTra

Spectrogramを利用
従来のモデルはいずれも欠点

CNN (ConvNeXt): 長期の時間依存関係を解決できない
Transformer (ViT): 計算コストが高い

そこで SpecTTTra - Spectro-Temporarl Tokens Transformerという新しいアーキテクチャを提案

Spectrogramを時間軸方向、周波数方向それぞれで分割したパッチをトークン化
時間/周波数の位置情報の埋め込み情報を付加
これらをTransformerベースのEncoderに入力。最終的にReal/Fakeの識別器にかける
時間が長くなっても計算コストが膨大にならないのがポイント.

Results

結果

かなり高い確率でAI生成曲を識別できることが確認できた。

特に120秒の長めのデータを使った時の精度が高い。
一番簡単に識別できたのが Suno v3.5, 逆に難しかったのが Udio -32

今回提案した SpecTTTraアーキテクチャよりもConvNetXtの方がF1スコアは高かったりする。

人の耳での識別も試してみたが、AIには全く歯がたたないこともわかった。

特に曲が短い場合は、AIの方がずっと効率的に判断できる。

システムの限界

SunoやUdioで利用されるモデルが変わるごとにシステムを更新する必要が出てくる

Further Thoughts

論文を読んで考えた個人的感想

著作権等に配慮した倫理的なプロジェクトのはずなのに、ロゴが思いっきりセガの知財を使っているあたりが不思議… (笑

SONICS - AI生成楽曲のデータセット＆識別モデル

Overview

Abstract (機械翻訳)

Motivation

System

Results

Further Thoughts

Links

Spotifake

Qosmo Lab｜Qosmo｜note

The Ghosts in the Machine, by Liz Pelly

SONICS - AI生成楽曲のデータセット ＆識別モデル

Overview

Abstract (機械翻訳)

Motivation

System

Results

Further Thoughts

Links

Spotifake

Qosmo Lab｜Qosmo｜note

The Ghosts in the Machine, by Liz Pelly

SONICS - AI生成楽曲のデータセット＆識別モデル