Entry

画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」

Simple Title

OpenAI CLIP + Image Generation Models = CLIP art

Description

画像とテキストの関連性の高さを判定するモデルCLIPを用いて、生成される画像を最適化 → テキストの入力にあった画像が生成

Type

Project

Year

2021

Posted at

July 17, 2021

Overview

画像とテキストがどのくらいマッチしているかを判定するモデルOpenAI CLIPと既存の画像生成モデルを組み合わせて画像を生成する仕組みに注目が集まっている。

"GAN Art"に続いて、多くの"AI Artist"が実験を進めている最新の手法!

システムの概念図

Technology/System

画像とテキストをつなげる (どのくらいマッチしているかを判定する)モデル、OpenAI CLIPと、既存の画像生成モデル（BigGAN, StyleGANなど) をつなげることで、テキストからそれにあった画像を生成する。
CLIPが算出する生成画像と入力テキストとの距離を最小化するように、生成モデルへの入力のベクトル(latent vector)をBackpropagationで最適化していく。

CLIP自体がもともとインターネット上で集めた画像とそれに付随するテキストで学習していることもあり、この仕組みで生成された画像は、(インターネット上にある)集合知、私たちの集合的な知識やイメージを圧縮したようなものになりがち。

OpenAIはCLIPと同時にテキストから画像を生成するモデル DALL-E を発表しているが、学習済みのDALL-Eモデルは公開されていない。上の画像で見るように、DALL-Eを使うよりもCLIPと画像生成モデルを組み合わせた方が(精度という意味では劣るが)意外性のある面白い結果になる。
"unreal engine" "hyper real"と言ったキーワードを足すことで、生成される画像がより「きれい」になることがわかっている。
"ghibli style"(ジブリ風)というキーワードを足すと、アニメっぽくなることもわかっている。

Results

Google Colabで使えるノートブックが公開されているのでいくつかテスト。ここでは画像生成モデルとしてVQ-GANが使われている。

固有名詞をきちんと認識している

"Perfume at Tokyo Dome, hyperrealistic"

"Perfume at Tokyo Dome, hyperrealistic"　きちんとPerfumeが三人組であることが理解できている。

"Perfume at Tokyo Dome"

同じインプットでも、hyper realistic, unreal engineなどの単語を取り除くと、急に荒っぽい結果になる。

「東京の街を歩く」と「新宿の街を歩く」の違い。新宿は夜の街！ (看板のように見えるのは unreal engineのロゴ？)

"Walking through the street of Tokyo, unreal engine"

ちなみにパリだと...

"Walking through the street of Paris"

"Walking through the street of Shinjuku, unreal engine"

その他

"Tokyo 2020 Olympics, unreal engine"

"Pole vault in Shibuya, unreal engine" 渋谷での棒高跳び

"AI DJ project, unreal engine"

"Totoro vs Godzilla, unreal engine" トトロ対ゴジラ

Twitter上でも多くの「AIアーティスト」たちが実験結果を発表している。

↑ "ghibli" ジブリをキーワードに追加した結果

Further Thoughts

創作活動の中で、アーティストは常に作り手の立場と批評家の立場を行き来することが必要、とよく言われるが、まさにそれを体現しているのがこのシステム。
ネット上の集合意識が圧縮して表出するかのよう。
"unreal engine" "ghibli style" といった言葉を追加することで生成される画像が大きく変わるのも面白い。どういうキーワードを使うか、使う側の想像力が試される。
今後の実験でまた新しいキーワードが見つかるかも。

Links

OpenAI CLIP

CLIP: Connecting Text and Images

We're introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized, similar to the "zero-shot" capabilities of GPT-2 and GPT-3.

openai.com

参考記事

Alien Dreams: An Emerging Art Scene

In January 2021, OpenAI released the weights and code for their CLIP model, and since then various hackers, artists, researchers, and deep learning enthusiasts have figured out novel methods for combining CLIP with various generative models to create beautiful visual art from just a text prompt.

ml.berkeley.edu

AI Generated Art Scene Explodes as Hackers Create Groundbreaking New Tools CLIP+VQ-GAN

New AI tools CLIP+VQ-GAN can create impressive works of art based on just a few words of input.

www.vice.com

AI Generated Art Scene Explodes as Hackers Create Groundbreaking New Tools CLIP+VQ-GAN

テストに使ったGoogle Colab Notebook

Google Colaboratory

colab.research.google.com