👨‍👩‍👦

もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成

Entry
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成
Simple Title
CLIP-guided collage image optimization using Evolutionary Strategy
Description
画像とテキストがどれくらいマッチしているかを定量化するCLIPモデルを用いて、要素画像の配置を最適化。入力されたテキストにあったコラージュ画像を生成するシステム
Type
Project
Year
2021
Posted at
December 11, 2021
Tags
visualcross-modal
AIが生成した新しい「へのへのもへじ」 - テキスト入力: "face of a happy boy"
AIが生成した新しい「へのへのもへじ」 - テキスト入力: "face of a happy boy"

Overview

CLIP+VQGANで生成した画像. テキスト入力 "cover of new Aphex Twin album painted by Picasso, hyperrealistic"
CLIP+VQGANで生成した画像. テキスト入力 "cover of new Aphex Twin album painted by Picasso, hyperrealistic"
  • このプロジェクトでは、GANの代わりにあらかじめ用意した小さな画像の「配置」を最適化することで、入力されたテキストにあったコラージュ画像を生成する。
  • GANで生成したのとは異なる質感のミニマルで、見る人に想像力を要求する画像を生成する。

Inspiration

  • コラージュというかたちで、絵の中で使える素材にあえて制限を加えることで、新しい表現を生み出そうとする試みにはピカソをはじめ多くのアーティストが取り組んでいる。
  • 「へのへのもへじ」「つるにはまるまるむし」などもある種のコラージュとして捉えることができる。ミニマルな表現によって、見る人の想像力を引き出す効果も。
Three Musicians by Picasso
Three Musicians by Picasso
アルチンボルト
アルチンボルト
つるにはまるまるむし
つるにはまるまるむし

Technology/System

  • まずは... アルチンボルトを参考に果物の画像を用いたコラージュを試す
image
image
image

  • 画像を配置してコラージュを作る場合、VQGANのような画像生成モデルとは異なり、CLIPで算出した誤差の勾配を逆伝播(Backpropagation)できないという課題がある → 勾配が直接計算できなくても最適化できる進化戦略(Evolutionary Strategy, ES)を用いている。
  • 要素となる画像のキャンバスの上での配置をその座標と大きさ、回転の4つの実数値で表現。MM個の果物を並べる場合 M×4M \times 4 次元のベクトルで、一つのコラージュを表現する。これを進化計算における遺伝子表現として扱う。
コラージュ画像の遺伝子表現
コラージュ画像の遺伝子表現
  • こうしてM×4M \times 4 次元ベクトルとして表現された画像の配置を、進化戦略ESの一つPGPE(Policy Gradient Parameter Exploration)アルゴリズムを用いて最適化する。最適化の適応度関数(fitness function)はCLIPモデルを用いて定量化した、与えたテキスト入力との類似度を用いる。
  • PGPEでは現在の解の周囲に正規分布で新しい解の候補をランダムに生成。現在の解に対して点対象となる解のペアを作ることで、各次元の勾配を推定する(数値微分の考え方)。この推定された勾配に基づいて次の解が設定される (右のアニメーション参考)。

PGPEアルゴリズムの概念図 (source:
PGPEアルゴリズムの概念図 (source: pgpelib)

Results

  • 果物の配置で顔が作られた。 happyとsadでバナナの口の方向が違うのが面白い
テキスト入力: An illustration of a happy face of a boy
テキスト入力: An illustration of a happy face of a boy
テキスト入力: An illustration of a
テキスト入力: An illustration of a sad face of a boy

  • 最適化の過程。福笑いの素材でも試してみた。
テキスト入力: An illustration of a happy face of a boy
テキスト入力: An illustration of a happy face of a boy 福笑いの素材を利用

A sad mouse
A sad mouse

  • よりミニマルに果物の代わりにひらがなを利用。「へのへのもへじ」の7文字でどこまで表現できるかの実験を行った。同じ「へ」を happy boyの場合は笑顔の口元、sad boyの場合は涙と使い分けているのが面白い。
入力: face of a
入力: face of a happy boy
入力: face of a
入力: face of a happy boy 「へ」で作った口が面白い
入力: face of a
入力: face of a sad boy 「の」で目を、「へ」で涙を表現

入力: a sad cat  「の」を尻尾に!
入力: a sad cat 「の」を尻尾に!
  • よりミニマルに...
入力:  a sad cat
入力: a sad cat
入力: a bicycle 「の」で作ったタイヤが面白い
入力: a bicycle 「の」で作ったタイヤが面白い
入力: Mona Lisa
入力: Mona Lisa

Further Thoughts

  • 微妙な文字のディテールの使い方(例: セリフ体のはねをネコの耳に使っている)に創造性を感じる。
  • 見る人の想像力を刺激する、わかるかな?と挑発している感じが面白い。

Links

CLIP + 進化戦略ESで抽象画を描く。本プロジェクトの直接的なインスピレーションになった研究。

自分で試してみたい人に

Google Colaboratory用のノートブック - 果物のコラージュ

Google Colaboratory用のノートブック - へのへのもへじ

進化戦略のアルゴリズム

Parameter-exploring policy gradients, Sehnke F, Osendorfer C, Rückstiess T, Graves A, Peters J, Schmidhuber J (2010)

ClipUp: A Simple and Powerful Optimizer for Distribution-based Policy Evolution(2020), Toklu NE, Liskowski P, Srivastava RK