📄

SONICS - AI生成楽曲のデータセット &識別モデル

Entry

AI生成楽曲を見破れ! SONICS - AI生成楽曲のデータセット &識別モデル

Simple Title

Rahman, Md Awsafur, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, and S. Fattah. 2024. “SONICS: Synthetic or Not -- Identifying Counterfeit Songs,” August. http://arxiv.org/abs/2408.14080.

Description

SunoやUdioで生成した楽曲を識別するためのフレームワーク

Type
Paper
Year

2024

Posted at
April 25, 2025 2:27 PM (GMT+9)
Tags
musicsoundethics
image

Overview

SunoやUdioで生成された楽曲を識別するための効率的なアーキテクチャと学習データのデータセット

Abstract (機械翻訳)

AIによる楽曲生成の急速な発展は、エキサイティングな可能性と課題を提示しています。これらのツールは音楽制作を民主化する一方で、芸術的完全性とコンテンツ管理のために、人間が作曲した楽曲とAIが生成した楽曲を区別する能力が必要不可欠となっています。偽造楽曲検出に関する既存の研究とデータセットは、歌声ディープフェイク検出(SVDD)のみに焦点を当てており、そこではボーカルはAIで生成されているものの、伴奏音楽は実在の楽曲から取得されています。しかし、この手法は、すべての要素(ボーカル、歌詞、音楽、スタイル)がAIによって生成される可能性のある現代のエンドツーエンドAI生成楽曲には不十分です。さらに、既存のデータセットには、歌詞と音楽の多様性、長時間の楽曲、オープンな偽造楽曲が不足しています。これらの課題に対応するため、私たちはSONICS†を導入します。これは、SunoやUdioなどの人気プラットフォームから収集した49,000以上の合成楽曲を含む、97,000以上の楽曲で構成される、エンドツーエンドの合成楽曲検出(SSD)のための新しいデータセットです。さらに、既存の手法では見過ごされてきた aspect である、効果的な真贋判定のための楽曲における長期的な時間依存性のモデリングの重要性を強調します。これらのパターンを捉えるため、私たちは新しいモデルSpecTTTraを提案します。これは、従来のCNNやTransformerベースのモデルと比較して、競争力のある性能を維持しながら、最大3倍の高速化と6倍のメモリ効率を実現します。最後に、現在の研究における別の欠点に対応するため、AIベースと人間による評価の両方のベンチマークを提供します。

Motivation

  • AI生成楽曲の氾濫は(人間の)アーティストに不利益をもたらす可能性が高い
    • 特にSunoやUdioのようなプロンプトのみで多様な音楽が生成できるモデルが一般化した今は特にその危険性が高まっている。
  • AI生成楽曲かどうかを識別する安定した仕組みが必要!

System

  • AI生成楽曲のデータセットを構築
    • SONICS - 97000曲のデータセット
      • 49000曲 - SunoとUdioで生成したAI生成楽曲 (AI生成曲なので著作権はない)
        • 歌詞も曲もAI生成のFull Fakeと人が書いた実在する曲をベースにAI生成するHalf Fakeの二つの手法でSunoとUdioで生成
        • Full Fake: あらかじめ用意した多数のトピック、ジャンル、ムードを組み合わせて、LLM(GPT-4o)で歌詞と曲のスタイルをを生成
        • Half Fake: 実在する曲の歌詞をベースにベースに似て非なる歌詞を作る。曲調はGeminiで言語化し、音楽生成のスタイルとして利用
      • 49000曲 - YouTubeで集めた本物の曲 (=人間が作った曲)
      • それぞれの曲は平均で145秒ほど
  • 今回のターゲットは、Suno (v2, v3, v3.5) Udio (Udio-32, Udio-130) のみ
    • それ以外のAI音楽生成システムは考慮していない
提案されrたSpectro-Temporal Tokens Transformer (SpecTTra)
提案されrたSpectro-Temporal Tokens Transformer (SpecTTra)
  • 判別器のアーキテクチャ - SpecTTTra
    • Spectrogramを利用
    • 従来のモデルはいずれも欠点
      • CNN (ConvNeXt): 長期の時間依存関係を解決できない
      • Transformer (ViT): 計算コストが高い
    • そこで SpecTTTra - Spectro-Temporarl Tokens Transformerという新しいアーキテクチャを提案
      • Spectrogramを時間軸方向、周波数方向それぞれで分割したパッチをトークン化
      • 時間/周波数の位置情報の埋め込み情報を付加
      • これらをTransformerベースのEncoderに入力。最終的にReal/Fakeの識別器にかける
      • 時間が長くなっても計算コストが膨大にならないのがポイント.

Results

  • 結果
    • かなり高い確率でAI生成曲を識別できることが確認できた。
      • 特に120秒の長めのデータを使った時の精度が高い。
      • 一番簡単に識別できたのが Suno v3.5, 逆に難しかったのが Udio -32
    • 今回提案した SpecTTTraアーキテクチャよりもConvNetXtの方がF1スコアは高かったりする。
image
image
  • 人の耳での識別も試してみたが、AIには全く歯がたたないこともわかった。
    • 特に曲が短い場合は、AIの方がずっと効率的に判断できる。
  • システムの限界
    • SunoやUdioで利用されるモデルが変わるごとにシステムを更新する必要が出てくる

Further Thoughts

論文を読んで考えた個人的感想

  • 著作権等に配慮した倫理的なプロジェクトのはずなのに、ロゴが思いっきりセガの知財を使っているあたりが不思議… (笑

Links