Sony AI による公開音響エフェクト基盤モデル Woosh を報告。高品質オーディオエンコーダー、テキスト-オーディオ整列モデル、テキスト条件生成を備える。
@June 18, 2024 9:30 PM (GMT+2)
AI Overview (alphaxiv)
ウーシュ:効果音基盤モデル April 2, 2026 Gaëtan Hadjeres, Marc Ferras, Khaled Koutini, Benno Weck, Alexandre Bittar, Thomas Hummel, Zineb Lahrici, Hakim Missoum, Joan Serrà, Yuki Mitsufuji ソニーAIは、テキストおよび動画入力から高品質で即座に効果音を生成するためのモジュラーな基盤モデル「Woosh」を発表しました。非商用利用向けにオープンウェイトと推論コードを公開しています。このフレームワークは、ドメイン固有のトレーニングデータを活用することで、テキストtoオーディオおよび動画toオーディオ生成において、確立されたベースラインと比較して優れたパフォーマンスを示し、わずか4回の関数評価で効率的な推論を可能にする蒸留バージョンも含まれています。 高品質なオーディオの生成は、従来、音声と音楽という2つの主要な領域に分けられていました。汎用的な生成モデルは存在しますが、それらはしばしば効果音(SFX)の特定の要件、すなわちテキストまたは視覚的なプロンプトに正確に同期した高忠実度で瞬間的な音響イベントの必要性に対応するのに苦労します。映画、ゲーム、バーチャルリアリティにおけるプロフェッショナルなアプリケーションでは48 kHz以上のオーディオが求められますが、多くのオープンウェイトモデルは16 kHzまたは24 kHzに制限されています。 Wooshは、効果音生成のために特別に最適化された基盤モデルスイートとして、このギャップを埋めます。高忠実度オーディオオートエンコーダ、テキスト・オーディオアライメントモデル、そしてテキスト・トゥ・オーディオとビデオ・トゥ・オーディオ合成用の2つの生成エンジンを含むモジュラーパイプラインを提供します。これらのモデルの蒸留版を提供することで、このフレームワークは高速推論も可能にし、高解像度拡散モデルに通常伴う計算オーバーヘッドを削減します。 図1:Woosh生成パイプラインの概要。テキストプロンプトとノイズラテントを高忠実度効果音に変換します。 Woosh-AEによる高忠実度オーディオ圧縮 あらゆるラテント拡散モデルの基盤は、その圧縮ステージの品質にあります。オートエンコーダが高忠実度でオーディオを再構築できない場合、生成モデルはその制限を受け継ぐことになります。Woosh-AEは、生波形ではなく短時間フーリエ変換(STFT)複素係数で動作するように設計されたGANベースのボコーダーである、変更されたVOCOSアーキテクチャを利用しています。 エイリアシングアーチファクトを引き起こす可能性のある転置畳み込みをアップサンプリングに使用する多くの標準モデルとは異なり、Woosh-AEはSTFTと逆STFT(iSTFT)を介した1段階のダウンサンプリングとアップサンプリングプロセスを採用しています。このアーキテクチャは、残差接続を持つConvNeXtブロックのシリーズで構成されています。Woosh-AEにおける重要な技術的詳細の1つは、位相情報をどのように処理するかです。位相ラッピングの問題を避けるため、最後のConvNeXtブロックは振幅 𝑚 m、および実数成分 𝑥 x と虚数成分 𝑦 y を予測します。これらを組み合わせてSTFT係数を次のように計算します。 softplus ( 𝑚 ) ⋅ ( 𝑥 + 𝑗 𝑦 ) softplus(m)⋅(x+jy) 図2:Woosh-AEアーキテクチャ。ConvNeXtブロックとSTFTベースのサンプリングを利用して高忠実度を維持します。 Woosh-AEの訓練プロセスには、スペクトル精度と知覚的なリアリズムのバランスを取るように設計された複合損失関数が含まれます。 𝐿 = 15 𝐿 spec + 𝐿 adv + 2 𝐿 FM L=15L spec +L adv +2L FM ここで、 𝐿 spec L spec は多尺度メルスペクトログラム距離を表し、 𝐿 adv L adv は8つの異なるディスクリミネータからの敵対的損失であり、 𝐿 FM L FM は特徴マッチング損失です。これにより、StableAudio-OpenのVAEのような既存のベースラインよりも大幅に高い信号対歪み比で48 kHzの再構築が可能なエンコーダ/
デコーダが実現されます。 Woosh-CLAPによるテキスト・オーディオアライメント テキストからオーディオを生成するには、モデルは言語的記述と音響的特徴の関係を理解する必要があります。Woosh-CLAPは、対照言語-オーディオ事前学習(CLAP)アプローチを実装しています。これは、テキストエンコーダ(RoBERTa-Large)とオーディオエンコーダ(PaSST)を組み合わせ、両方のモダリティを共有の1024次元埋め込み空間にマッピングします。 図3:対照学習を通じてテキストキャプションとオーディオ録音をアライメントするために使用されるCLAPフレームワーク。 トレーニング中、モデルは対称的な対照損失を使用して、一致するオーディオとテキストのペアの埋め込みをまとめ、不一致のペアを分離します。Wooshの「プライベート」バージョンでは、著者らは大規模言語モデル(LLM)を使用して、キーワードのようなスタジオキャプションを自然言語記述に拡張することで、トレーニングデータを強化しました。このアライメントは、生成モデルがWoosh-CLAPからのテキスト埋め込みを主要な条件付け信号として使用するため、非常に重要です。 生成エンジン:Woosh-Flow 中核となる生成コンポーネントであるWoosh-Flowは、FLUX-Kontextアーキテクチャに基づく潜在拡散モデルです。標準的なU-Netとは異なり、このモデルはマルチモーダルなトランスフォーマーブロックのスタックを使用して、テキスト埋め込みとオーディオ潜在変数を処理します。これは12個のブロックで構成されており、6個の「MultiStream」ブロックと6個の「SingleStream」ブロックがあります。 図4:Woosh-Flowにおける生成トランスフォーマースタック。独立したモダリティ処理と共同モダリティ処理が特徴。 MultiStreamブロックはテキストとオーディオのモダリティに対して自己注意とフィードフォワード演算を独立して計算し、一方SingleStreamブロックは共同自己注意のためにシーケンスを連結し、暗黙的なクロスモーダル相互作用を可能にします。Woosh-Flowはフローマッチング目的関数を使用してトレーニングされます。このフレームワークでは、モデルは時間 𝑡 tにおいてノイズ 𝑥 1 x 1 をデータ 𝑥 0 x 0 にマッピングする速度場 𝑢 𝜃 u θ を推定することを、次の式を最小化することによって学習します。 ∥ 𝑢 𝜃 ( 𝑥 𝑡 , 𝑡 ) − ( 𝑥 1 − 𝑥 0 ) ∥ 2 ∥u θ (x t ,t)−(x 1 −x 0 )∥ 2 図5:テキストとオーディオのシーケンスが並行して処理されるMultiStreamブロックの詳細。 図6:特徴を連結することでクロスモーダルアテンションを促進するSingleStreamブロックの詳細。 このアプローチは、従来の拡散モデルに比べていくつかの利点があります。ノイズから信号への変換において、より直線的なパスを提供し、数値的に安定しており、サンプリング効率が高いです。 ビデオからオーディオへの合成:Woosh-VFlow 効果音は単独で存在することはめったになく、メディア制作ではほとんど常に視覚的なアクションと結びついています。Woosh-VFlowは、ビデオ条件付けをサポートするようにベースモデルを拡張します。SynchFormerによって抽出された視覚特徴を統合し、これらがトランスフォーマーブロックに投影されます。 図7:テキスト条件付けと並行してビデオ特徴を組み込み、同期した効果音を生成するWoosh-VFlowパイプライン。 3番目のモダリティに対応するため、トランスフォーマーブロックはビデオトークン用の追加の射影で変更されています。モデルはビデオを時間的シーケンスとして扱い、学習可能な位置エンコーディングを使用して同期を維持します。これにより、モデルはドアが閉まる音や足が地面を打つ音を「見て」、適切なミリ秒で対応する音を生成することができます。Woosh-VFlowのトレーニングでは、VGGSoundやOGameData250k(ゲームプレイビデオデータセット)のような専門的なデータセットが利用され、モデルが現実世界の映像と合成ゲーム環境の両方でうまく機能するようにしています。 蒸留による効率的な推論
リアルタイムアプリケーションで拡散モデルを使用する上での主要な障壁の1つは、サンプリングに必要な多数の関数評価(NFE)であり、しばしば50から100ステップに及びます。これを解決するために、研究者らは蒸留バージョンであるWoosh-DFlowとWoosh-DVFlowを開発しました。 蒸留プロセスでは、MeanFlowアプローチと潜在敵対的拡散蒸留を組み合わせています。「学生」モデルは、「教師」モデル(オリジナルのWoosh-Flow)の速度を、はるかに大きな時間間隔 [ 𝑟 , 𝑡 ] [r,t] で予測するように学習されます。これにより、学生モデルは100ステップではなくわずか4ステップで同等のオーディオ品質を達成できます。さらに、凍結された教師モデルに基づく敵対的ディスクリミネーターが使用され、4ステップの出力が高品質データと区別できないことを保証し、高速サンプリング手法でよく見られる「ぼやけ」や詳細の損失を防ぎます。 評価と影響 研究者たちは、StableAudio-Open (SAO) やTangoFluxを含む主要なオープンモデルとWooshを比較評価しました。AudioCapsデータセットでのテキストからオーディオへのベンチマークにおいて、Woosh-Flow-Publicはより低いフレシェ距離 (FD) スコアを達成し、より高いオーディオ品質とより優れた意味的アライメントを示しました。 本研究の重要な発見は、プロフェッショナルなスタジオ品質のサウンドライブラリをトレーニングに使用することで(「プライベート」モデル)、パフォーマンスが大幅に向上したことでした。専門的な内部テストでは、Woosh-Privateモデルは、特にテキストからオーディオへの検索と再構築の精度において、汎用ベースラインを大幅に上回りました。これは、ドメイン特化の重要性を浮き彫りにしています。一般的なYouTubeオーディオでトレーニングされたモデルは、プロのサウンドデザインに必要な「鮮明さ」とダイナミックレンジを捉えきれないことがよくあります。 要約すると、Wooshは次世代のサウンドエフェクト合成のための包括的なオープンウェイトフレームワークを提供します。48 kHzでの高忠実度オートエンコーディング、フローマッチングトランスフォーマー、およびマルチモーダル条件付けを組み合わせることで、研究者とサウンドデザイナーの両方にとって堅牢なツールとなります。蒸留モデルの組み込みにより、これらの高品質な生成物が、レイテンシーが重要な要素となるインタラクティブなアプリケーションに統合できることが保証されます。 FLUX.1 Kontext: 潜在空間におけるインコンテキスト画像生成と編集のためのフローマッチング 本論文は、Woosh-Flow生成モデルが明示的に基づくFLUX-Kontextアーキテクチャを導入しており、極めて重要である。Wooshにおける多様なモダリティを処理するためのマルチモーダルTransformerブロックおよび全体的な構造は、本研究から派生している。 Black Forest Labs et al. FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space. 2025. arXiv: 2506.15742 [cs.GR]. URL: https://arxiv.org/abs/2506.15742. Vocos: 時間領域型とフーリエ変換型ニューラルボコーダー間のギャップを埋める、高音質音声合成に向けて Woosh-AEオーディオエンコーダー/デコーダーは、音声を潜在空間との間で変換するための重要なコンポーネントであり、本稿で提示されているVOCOSアーキテクチャに直接基づいています。この引用は、Wooshパイプラインの音声表現と再構築品質を理解する上で不可欠です。 Hubert Siuzdak. Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis. 2024. arXiv: 2306.00814 [cs.SD]. URL: https://arxiv.org/abs/2306.00814. 生成モデリングのためのフローマッチン
グ 本研究は、Woosh-Flow拡散モデルの中核となる訓練手法であるフローマッチング (FM) 目的関数を導入しています。この論文を理解することは、Wooshモデルがノイズとデータの間の速度場を推定することによって音声を生成することをどのように学習するかを理解する上で重要です。 Yaron Lipman et al. Flow Matching for Generative Modeling. 2023. arXiv: 2210.02747 [cs.LG]. URL: https: //arxiv.org/abs/2210.02747. ステーブルオーディオオープン この論文は、Wooshの主要なベンチマークとして機能する、有力なオープンソースのテキスト・ツー・オーディオモデルを提示します。著者らは、StableAudio-OpenとWooshの性能を繰り返し比較することで、自らのモデルがオーディオ品質と意味的整合性において競争力があることを検証しています。 Zach Evans et al. Stable Audio Open. 2024. arXiv: 2407.14358 [cs.SD]. URL: https://arxiv.org/abs/2407.14358. タンゴフラックス: 超高速かつ忠実なテキスト音声生成 — フローマッチングとCLAPランク付け嗜好最適化による タンゴフラックスは、本論文の評価セクションでベンチマークに使用された、もう一つの主要なオープンソースモデルです。この引用は、特にテキストからオーディオへの生成においてWooshが比較対象としている最先端のモデルに関する文脈を提供するため、重要です。 Chia-Yu Hung et al. TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization. 2025. arXiv: 2412.21037 [cs.SD]. URL: https://arxiv.org/abs/2412.21037.
Qosmo Relevance
Neutone (FX/Morpho)の技術的背景として、音響エフェクト生成の最先端アプローチの参考になる。公開基盤モデルの設計も重要。