📄
Entry

Simple Title

Oppenlaender, Jonas. 2022. “The Creativity of Text-Based Generative Art.” arXiv [cs.HC]. arXiv. http://arxiv.org/abs/2206.02904.

Type
Paper
Year

2022

Posted at
June 2, 2021
Tags
theoryart
Arxiv
http://arxiv.org/abs/2206.02904
image

Overview

  • DALL-EやMidjouneyなどのテキストプロンプトから画像を生成するモデルを使ったAIアートの創造性は、アウトプットされた画像ではなく、モデルと人とのインタラクションの過程にある!!

Abstract

Text-based generation of digital images has made a giant leap to- wards becoming a mainstream phenomenon. With text-based gen- erative systems, anybody can create digital images and artworks. This provokes the question of whether text-based generative art is creative. This paper expounds on the nature of human creativity in- volved in text-based generative art with a specific focus on the prac- tice of prompt engineering, drawing on Rhodes’s conceptual model of creativity. The paper critiques the current product-centered view of creativity which may fall short in the context of text-based generative art. An case exemplifying this shortcoming is provided and future opportunities for research on text-based generative art are outlined.

Motivation

  • DALL-EやMidjourneyなどのText-to-imageモデルの大流行にともなって、誰もが美しい画像、リアルな画像をワンクリックで生成できるようになった。
  • 画像生成モデルが実際にどう動いているのか、ほとんどの場合はBlack Boxで、テキスト入力(prompt プロンプト)以外のコントロールの幅が非常に小さい。
  • こうしたモデルを使って生成した画像を生成する行為を Text-based Generative Artと呼ぶとすると…
    • Text-based Generative Artはそもそもアートなのか? 一般にこうしたモデルに入力するプロンプトを考える行為を「Prompt Engineering」と呼んだりするが、Prompt Engineeringは創造的な行為と言えるのか。

Technology

  • Text-based Generative Artの流行のベースとなっている技術/インフラとして著者は以下の四つを挙げる
    • いうまでもなく 画像生成のアルゴリズム
      • GAN (Generative Adversarial Network) 特にVQ-VAE GAN (DALL-E 1)
      • Diffusion Model (DALL-E 2)
    • CLIP - 画像とテキストがどのくらいマッチしているかを定量化するモデル
    • Google Colab - 研究者、エンジニアがシェアしたスクリプトを誰でもすぐに動かせるインフラ
    • Discord - スクリプトやpromptをシェアしあったりするコミュニティ

Discussion

  • 意味のあるプロンプトを考えるのに実は創造性はそれほどいらない
    • なぜなら、アルファベット一文字や一単語(左)、絵文字だけとかでもかっこいい絵が生成されてしまう!
image

Results

Further Thoughts

  • RhodesのCreativityに関する4Pの議論はこういうふうに使えるのか! というの気づきがあった.
    • Mel Rhodes. 1961. An Analysis of Creativity. The Phi Delta Kappan 42, 7 (1961), 305–310.

Links

論文で使われている主な画像生成モデル

DALL·E 2

Thanks to those who helped with and provided feedback on this release: Sandhini Agarwal, Sam Altman, Chester Cho, Peter Hoeschele, Jacob Jackson, Jong Wook Kim, Matt Knight, Jason Kwon, Anna Makanju, Katie Mayer, Bob McGrew, Luke Miller, Mira Murati, Adam Nace, Hyeonwoo Noh, Cullen O'Keefe, Long Ouyang, Michael Petrov, Henrique Ponde de Oliveira Pinto, Alec Radford, Girish Sastry, Pranav Shyam, Aravind Srinivas, Ilya Sutskever, Preston Tuggle, Arun Vijayvergiya, Peter Welinder

DALL·E 2
Midjourney

Midjourney is an independent research lab exploring new mediums of thought and expanding the imaginative powers of the human species. We are a small self-funded team focused on design, human infrastructure, and AI. We have 11 full-time staff and an incredible set of advisors. ------------------------------- Daniel, Max, Jack, Thomas, Red, Sam, Nadir, Sebastian.

CLIPモデル関連

画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」

"Perfume at Tokyo Dome, hyperrealistic"

画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」
Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法

Create with AI

Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法