WavJourney - LLMで複数のモデルを組み合わせて、テキスト入力からオーディオコンテンツを生成


WavJourney - LLMで複数のモデルを組み合わせて、テキスト入力からオーディオコンテンツを生成

Simple Title

Liu, Xubo, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, et al. 2023. “WavJourney: Compositional Audio Creation with Large Language Models.” arXiv [cs.SD]. arXiv. http://arxiv.org/abs/2307.14335.





Posted at
May 25, 2024


  • LLMと複数の音声合成モデルを駆使して、テキストプロンプトからスピーチ、音楽、SEなどを含む音のコンテンツを生成できる
    • ラジオドラマ(古い?)のようなものを生成できる
  • ユーザテストでは、人が作ったオーディオコンテンツよりも高く評価される場合もあることがわかった!


Large Language Models (LLMs) have shown great promise in integrating diverse expert models to tackle intricate language and vision tasks. Despite their significance in advancing the field of Artificial Intelligence Generated Content (AIGC), their potential in intelligent audio content creation remains unexplored. In this work, we tackle the problem of creating audio content with storylines encompassing speech, music, and sound effects, guided by text instructions. We present WavJourney, a system that leverages LLMs to connect various audio models for audio content generation. Given a text description of an auditory scene, WavJourney first prompts LLMs to generate a structured script dedicated to audio storytelling. The audio script incorporates diverse audio elements, organized based on their spatio-temporal relationships. As a conceptual representation of audio, the audio script provides an interactive and interpretable rationale for human engagement. Afterward, the audio script is fed into a script compiler, converting it into a computer program. Each line of the program calls a task-specific audio generation model or computational operation function (e.g., concatenate, mix). The computer program is then executed to obtain an explainable solution for audio generation. We demonstrate the practicality of WavJourney across diverse real-world scenarios, including science fiction, education, and radio play. The explainable and interactive design of WavJourney fosters human-machine co-creation in multi-round dialogues, enhancing creative control and adaptability in audio production. WavJourney audiolizes the human imagination, opening up new avenues for creativity in multimedia content creation.


  • 既存の研究は特定のタイプの音の生成 (スピーチ、音楽、効果音/フォーリー)をターゲットにしていて、包括的なコンテンツを作ることができない
  • LLMで説得力のある音声コンテンツを作れるか??
    • 単に自動化するだけでなく人の介入を許すカタチにしたい
  • 巨大な学習データセットやモデルを作らずに、既存のモデルの組み合わせで生成した方が効率が良いはず


  • 1) Audio script generation: given a text instruction, the audio script writer initiates the process by warping the input instruction with specific prompts. Then, the LLM is engaged with these prompts, which directs it to generate an audio script conforming to the structured format. 2) Script compiling and program execution: Subsequently, the script compiler transcribes the audio scripts into a computer program. The computer program is further executed by calling the APIs of expert audio generation models to create audio content. We describe the details of these two steps in the following sections.
  • システムは大きく2段階
    1. オーディオ・スクリプト(音の台本)の生成
      • スピーチ、音楽、効果音の三つの種類の音を扱う
      • 前景、背景を定義 - 前景の音は重ならない / スピーチは前景のみ といったルールをあらかじめ指定してある
      • スクリプトはJSON形式で出力させる (右のテーブル)
    2. スクリプト・コンパイラーが台本をコードに変換
      • オーディオ・スクリプトを解釈して、実際の音響処理を走らせる仕組み
      • JSONのrootを読んで、どういう音素材があるか判断、前景、背景に来る音をそれぞれ処理
      • 最後に時間的に配置、ミックスする。個々の処理は事前に定義されている。
  • 具体的に利用したのは…
    • ChatGPT
    • MusicGen (音楽) AudioGen (効果音)
    • Bark (スピーチ)



プロンプト: Generate an audio in Science Fiction theme: Mars News reporting that Humans send light-speed probe to Alpha Centauri. Start with news anchor, followed by a reporter interviewing a chief engineer from an organization that built this probe, founded by United Earth and Mars Government, and end with the news anchor again.

  • ちゃんと火星からのレポーターの声の音質が無線越しのような声になってるあたり、芸が細かい
  • Generate a fictional radio show: "In the bustling artistic landscape of 1920s Paris, a local surrealist artist vanishes without a trace, leaving the community in a state of anxious speculation. The broadcast delves into this perplexing disappearance, exploring its impact on the bohemian circles frequenting the famed nightclub, Le Chat Noir. Tune in for a captivating minute of news that uncovers the layers of mystery shrouding the City of Lights. From police bafflement to public intrigue, we bring you the latest on this enigmatic tale that has both captivated and confounded Parisians. Hosted by Edward Thompson for the BBC World Service, this broadcast serves as a haunting reminder of the secrets that lurk in the corners of artistic brilliance and nocturnal Paris.”
    • ChatGPTで生成したスクリプト + Midjouneyの画像
  • 定量的な評価
    • AudioLDMやAudioGenで同じプロンプトからまるっと生成した場合の結果を、AudioCaps, Clothoの二つのデータセットを使って比較。
    • FAD/KL/ISなどの定量的な指標 (音質の良さ)では、AudioGenなどに分がある
    • 一方で全体的な印象(OVL) テキストとの関連性の高さ(REL)などをユーザテストをして定性的に確かめると、提案手法が一番いい結果に。
      • AudioCapsの場合はGround Truthよりも良い結果に!

Further Thoughts


  • 複数のモデルを組み合わせることで、一つ一つのモデルのアウトプットの質はそこまで気にならなかったりする
  • まず人が読める”シナリオ”を生成 → コードに変換 というステップをとっているので、シナリオを手作業で編集してカスタマイズできるあたりは◎
  • 動画生成を組み合わせるとYouTube動画を無限に生成できそう… (品質にこだわらなければ)


  • HuggingFaceで試せる