Entry
画像と文章をつなげるモデル OpenAI CLIPを用いた「CLIPアート」
Simple Title
OpenAI CLIP + Image Generation Models = CLIP art
Description
画像とテキストの関連性の高さを判定するモデルCLIPを用いて、生成される画像を最適化 → テキストの入力にあった画像が生成
Type
Project
Year
2021
Posted at
July 17, 2021
Tags
artimagecross-modal
Overview
- 画像とテキストがどのくらいマッチしているかを判定するモデルOpenAI CLIPと既存の画像生成モデルを組み合わせて画像を生成する仕組みに注目が集まっている。
- "GAN Art"に続いて、多くの"AI Artist"が実験を進めている最新の手法!
Technology/System
- 画像とテキストをつなげる (どのくらいマッチしているかを判定する)モデル、OpenAI CLIPと、既存の画像生成モデル(BigGAN, StyleGANなど) をつなげることで、テキストからそれにあった画像を生成する。
- CLIPが算出する生成画像と入力テキストとの距離を最小化するように、生成モデルへの入力のベクトル(latent vector)をBackpropagationで最適化していく。
- CLIP自体がもともとインターネット上で集めた画像とそれに付随するテキストで学習していることもあり、この仕組みで生成された画像は、(インターネット上にある)集合知、私たちの集合的な知識やイメージを圧縮したようなものになりがち。
- OpenAIはCLIPと同時にテキストから画像を生成するモデル DALL-E を発表しているが、学習済みのDALL-Eモデルは公開されていない。上の画像で見るように、DALL-Eを使うよりもCLIPと画像生成モデルを組み合わせた方が(精度という意味では劣るが)意外性のある面白い結果になる。
- "unreal engine" "hyper real"と言ったキーワードを足すことで、生成される画像がより「きれい」になることがわかっている。
- "ghibli style"(ジブリ風)というキーワードを足すと、アニメっぽくなることもわかっている。
Results
- Google Colabで使えるノートブックが公開されているのでいくつかテスト。ここでは画像生成モデルとしてVQ-GANが使われている。
- 固有名詞をきちんと認識している
"Perfume at Tokyo Dome, hyperrealistic"
"Perfume at Tokyo Dome"
同じインプットでも、hyper realistic, unreal engineなどの単語を取り除くと、急に荒っぽい結果になる。
「東京の街を歩く」と「新宿の街を歩く」の違い。新宿は夜の街! (看板のように見えるのは unreal engineのロゴ?)
ちなみにパリだと...
- その他
- Twitter上でも多くの「AIアーティスト」たちが実験結果を発表している。
↑ "ghibli" ジブリをキーワードに追加した結果
Further Thoughts
- 創作活動の中で、アーティストは常に作り手の立場と批評家の立場を行き来することが必要、とよく言われるが、まさにそれを体現しているのがこのシステム。
- ネット上の集合意識が圧縮して表出するかのよう。
- "unreal engine" "ghibli style" といった言葉を追加することで生成される画像が大きく変わるのも面白い。どういうキーワードを使うか、使う側の想像力が試される。
- 今後の実験でまた新しいキーワードが見つかるかも。
Links
OpenAI CLIP
参考記事
テストに使ったGoogle Colab Notebook