📄
Entry
Simple Title
Oppenlaender, Jonas. 2022. “The Creativity of Text-Based Generative Art.” arXiv [cs.HC]. arXiv. http://arxiv.org/abs/2206.02904.
Type
Paper
Year
2022
Posted at
June 2, 2021
Tags
theoryart

image

Overview

  • DALL-EやMidjouneyなどのテキストプロンプトから画像を生成するモデルを使ったAIアートの創造性は、アウトプットされた画像ではなく、モデルと人とのインタラクションの過程にある!!

Abstract

Text-based generation of digital images has made a giant leap to- wards becoming a mainstream phenomenon. With text-based gen- erative systems, anybody can create digital images and artworks. This provokes the question of whether text-based generative art is creative. This paper expounds on the nature of human creativity in- volved in text-based generative art with a specific focus on the prac- tice of prompt engineering, drawing on Rhodes’s conceptual model of creativity. The paper critiques the current product-centered view of creativity which may fall short in the context of text-based generative art. An case exemplifying this shortcoming is provided and future opportunities for research on text-based generative art are outlined.

Motivation

  • DALL-EやMidjourneyなどのText-to-imageモデルの大流行にともなって、誰もが美しい画像、リアルな画像をワンクリックで生成できるようになった。
  • 画像生成モデルが実際にどう動いているのか、ほとんどの場合はBlack Boxで、テキスト入力(prompt プロンプト)以外のコントロールの幅が非常に小さい。
  • こうしたモデルを使って生成した画像を生成する行為を Text-based Generative Artと呼ぶとすると…
    • Text-based Generative Artはそもそもアートなのか? 一般にこうしたモデルに入力するプロンプトを考える行為を「Prompt Engineering」と呼んだりするが、Prompt Engineeringは創造的な行為と言えるのか。

Technology

  • Text-based Generative Artの流行のベースとなっている技術/インフラとして著者は以下の四つを挙げる
    • いうまでもなく 画像生成のアルゴリズム
      • GAN (Generative Adversarial Network) 特にVQ-VAE GAN (DALL-E 1)
      • Diffusion Model (DALL-E 2)
    • CLIP - 画像とテキストがどのくらいマッチしているかを定量化するモデル
    • Google Colab - 研究者、エンジニアがシェアしたスクリプトを誰でもすぐに動かせるインフラ
    • Discord - スクリプトやpromptをシェアしあったりするコミュニティ

Discussion

  • 意味のあるプロンプトを考えるのに実は創造性はそれほどいらない
    • なぜなら、アルファベット一文字や一単語(左)、絵文字だけとかでもかっこいい絵が生成されてしまう!
image

Results

Further Thoughts

  • RhodesのCreativityに関する4Pの議論はこういうふうに使えるのか! というの気づきがあった.
    • Mel Rhodes. 1961. An Analysis of Creativity. The Phi Delta Kappan 42, 7 (1961), 305–310.

Links

論文で使われている主な画像生成モデル

CLIPモデル関連