Entry

もしAIが「へのへのもへじ」を作ったら？ — CLIPと進化戦略を用いたコラージュ画像の生成

Simple Title

CLIP-guided collage image optimization using Evolutionary Strategy

Description

画像とテキストがどれくらいマッチしているかを定量化するCLIPモデルを用いて、要素画像の配置を最適化。入力されたテキストにあったコラージュ画像を生成するシステム

Type

Project

Year

2021

Posted at

December 11, 2021

Overview

画像とテキストがどのくらいマッチしているかを定量化するOpenAIのCLIPモデルとGANの画像生成モデルを組み合わせることで、テキスト入力をトリガーに画像を生成する仕組み(例えばCLIP+VQGAN)が注目を集めている。

画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」

"Perfume at Tokyo Dome, hyperrealistic"

createwith.ai

CLIP+VQGANで生成した画像. テキスト入力 "cover of new Aphex Twin album painted by Picasso, hyperrealistic"

このプロジェクトでは、GANの代わりにあらかじめ用意した小さな画像の「配置」を最適化することで、入力されたテキストにあったコラージュ画像を生成する。
GANで生成したのとは異なる質感のミニマルで、見る人に想像力を要求する画像を生成する。

Inspiration

コラージュというかたちで、絵の中で使える素材にあえて制限を加えることで、新しい表現を生み出そうとする試みにはピカソをはじめ多くのアーティストが取り組んでいる。
「へのへのもへじ」「つるにはまるまるむし」などもある種のコラージュとして捉えることができる。ミニマルな表現によって、見る人の想像力を引き出す効果も。

Three Musicians by Picasso

アルチンボルト

つるにはまるまるむし

Technology/System

まずは... アルチンボルトを参考に果物の画像を用いたコラージュを試す

画像を配置してコラージュを作る場合、VQGANのような画像生成モデルとは異なり、CLIPで算出した誤差の勾配を逆伝播(Backpropagation)できないという課題がある → 勾配が直接計算できなくても最適化できる進化戦略(Evolutionary Strategy, ES)を用いている。

要素となる画像のキャンバスの上での配置をその座標と大きさ、回転の4つの実数値で表現。 $M$ 個の果物を並べる場合 $M \times 4$ 次元のベクトルで、一つのコラージュを表現する。これを進化計算における遺伝子表現として扱う。

コラージュ画像の遺伝子表現

こうして $M \times 4$ 次元ベクトルとして表現された画像の配置を、進化戦略ESの一つPGPE(Policy Gradient Parameter Exploration)アルゴリズムを用いて最適化する。最適化の適応度関数(fitness function)はCLIPモデルを用いて定量化した、与えたテキスト入力との類似度を用いる。
PGPEでは現在の解の周囲に正規分布で新しい解の候補をランダムに生成。現在の解に対して点対象となる解のペアを作ることで、各次元の勾配を推定する(数値微分の考え方)。この推定された勾配に基づいて次の解が設定される (右のアニメーション参考)。

PGPEアルゴリズムの概念図 (source: pgpelib)

Results

果物の配置で顔が作られた。 happyとsadでバナナの口の方向が違うのが面白い

テキスト入力: An illustration of a happy face of a boy

テキスト入力: An illustration of a sad face of a boy

最適化の過程。福笑いの素材でも試してみた。

テキスト入力: An illustration of a happy face of a boy

テキスト入力: An illustration of a happy face of a boy 福笑いの素材を利用

A sad cat by 著名なAI研究者David Ha氏

A sad mouse

よりミニマルに果物の代わりにひらがなを利用。「へのへのもへじ」の7文字でどこまで表現できるかの実験を行った。同じ「へ」を happy boyの場合は笑顔の口元、sad boyの場合は涙と使い分けているのが面白い。

入力: face of a happy boy

入力: face of a happy boy 「へ」で作った口が面白い

入力: face of a sad boy　「の」で目を、「へ」で涙を表現

入力: a sad cat 「の」を尻尾に！

よりミニマルに...

入力: a sad cat

入力: a bicycle 「の」で作ったタイヤが面白い

入力: Mona Lisa

Further Thoughts

微妙な文字のディテールの使い方（例: セリフ体のはねをネコの耳に使っている)に創造性を感じる。
見る人の想像力を刺激する、わかるかな？と挑発している感じが面白い。

Links

CLIP + 進化戦略ESで抽象画を描く。本プロジェクトの直接的なインスピレーションになった研究。

CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?

CLIPについて

createwith.ai

CLIPと進化戦略ESを用いて、単純なかたちを組み合わせて描く抽象画. AIキュビズム ?

自分で試してみたい人に

Google Colaboratory用のノートブック - 果物のコラージュ

Google Colaboratory

colab.research.google.com

Google Colaboratory用のノートブック - へのへのもへじ

https://colab.research.google.com/drive/1HmCqqE046yVxGq9BKJpMXjRSjZc3ZaEB?usp=sharing

colab.research.google.com

進化戦略のアルゴリズム

Parameter-exploring policy gradients, Sehnke F, Osendorfer C, Rückstiess T, Graves A, Peters J, Schmidhuber J (2010)

Parameter-exploring policy gradients

We present a model-free reinforcement learning method for partially observable Markov decision problems. Our method estimates a likelihood gradient by sampling directly in parameter space, which leads to lower variance gradient estimates than obtained by regular policy gradient methods.

www.sciencedirect.com

ClipUp: A Simple and Powerful Optimizer for Distribution-based Policy Evolution(2020), Toklu NE, Liskowski P, Srivastava RK

ClipUp: A Simple and Powerful Optimizer for Distribution-based Policy Evolution

Distribution-based search algorithms are an effective approach for evolutionary reinforcement learning of neural network controllers. In these algorithms, gradients of the total reward with respect to the policy parameters are estimated using a population of solutions drawn from a search distribution, and then used for policy optimization with stochastic gradient ascent.

arxiv.org