Entry
もしAIが「へのへのもへじ」を作ったら? — CLIPと進化戦略を用いたコラージュ画像の生成
Simple Title
CLIP-guided collage image optimization using Evolutionary Strategy
Description
画像とテキストがどれくらいマッチしているかを定量化するCLIPモデルを用いて、要素画像の配置を最適化。入力されたテキストにあったコラージュ画像を生成するシステム
Type
Project
Year
2021
Posted at
December 11, 2021
Tags
visualcross-modal
Overview
- 画像とテキストがどのくらいマッチしているかを定量化するOpenAIのCLIPモデルとGANの画像生成モデルを組み合わせることで、テキスト入力をトリガーに画像を生成する仕組み(例えばCLIP+VQGAN)が注目を集めている。
- このプロジェクトでは、GANの代わりにあらかじめ用意した小さな画像の「配置」を最適化することで、入力されたテキストにあったコラージュ画像を生成する。
- GANで生成したのとは異なる質感のミニマルで、見る人に想像力を要求する画像を生成する。
Inspiration
- コラージュというかたちで、絵の中で使える素材にあえて制限を加えることで、新しい表現を生み出そうとする試みにはピカソをはじめ多くのアーティストが取り組んでいる。
- 「へのへのもへじ」「つるにはまるまるむし」などもある種のコラージュとして捉えることができる。ミニマルな表現によって、見る人の想像力を引き出す効果も。
Technology/System
- まずは... アルチンボルトを参考に果物の画像を用いたコラージュを試す
- 画像を配置してコラージュを作る場合、VQGANのような画像生成モデルとは異なり、CLIPで算出した誤差の勾配を逆伝播(Backpropagation)できないという課題がある → 勾配が直接計算できなくても最適化できる進化戦略(Evolutionary Strategy, ES)を用いている。
- 要素となる画像のキャンバスの上での配置をその座標と大きさ、回転の4つの実数値で表現。個の果物を並べる場合 次元のベクトルで、一つのコラージュを表現する。これを進化計算における遺伝子表現として扱う。
- こうして 次元ベクトルとして表現された画像の配置を、進化戦略ESの一つPGPE(Policy Gradient Parameter Exploration)アルゴリズムを用いて最適化する。最適化の適応度関数(fitness function)はCLIPモデルを用いて定量化した、与えたテキスト入力との類似度を用いる。
- PGPEでは現在の解の周囲に正規分布で新しい解の候補をランダムに生成。現在の解に対して点対象となる解のペアを作ることで、各次元の勾配を推定する(数値微分の考え方)。この推定された勾配に基づいて次の解が設定される (右のアニメーション参考)。
Results
- 果物の配置で顔が作られた。 happyとsadでバナナの口の方向が違うのが面白い
- 最適化の過程。福笑いの素材でも試してみた。
- よりミニマルに果物の代わりにひらがなを利用。「へのへのもへじ」の7文字でどこまで表現できるかの実験を行った。同じ「へ」を happy boyの場合は笑顔の口元、sad boyの場合は涙と使い分けているのが面白い。
- よりミニマルに...
Further Thoughts
- 微妙な文字のディテールの使い方(例: セリフ体のはねをネコの耳に使っている)に創造性を感じる。
- 見る人の想像力を刺激する、わかるかな?と挑発している感じが面白い。
Links
CLIP + 進化戦略ESで抽象画を描く。本プロジェクトの直接的なインスピレーションになった研究。
自分で試してみたい人に
Google Colaboratory用のノートブック - 果物のコラージュ
Google Colaboratory用のノートブック - へのへのもへじ
進化戦略のアルゴリズム
Parameter-exploring policy gradients, Sehnke F, Osendorfer C, Rückstiess T, Graves A, Peters J, Schmidhuber J (2010)
ClipUp: A Simple and Powerful Optimizer for Distribution-based Policy Evolution(2020), Toklu NE, Liskowski P, Srivastava RK