Entry
絵画を知らないAIが絵画を生成できるか — Art-free Diffusion
Simple Title
Ren, Hui, Joanna Materzynska, Rohit Gandikota, David Bau, and Antonio Torralba. 2024. “Art-Free Generative Models: Art Creation Without Graphic Art Knowledge.” http://arxiv.org/abs/2412.00176.
Description
アートを含まない学習データを学習したAIモデルをベースに、少数のアート作品の画像でLoRAを学習。きちんとそのアーティストの特徴を掴んだ画像が生成された。
Type
Paper
Year
2024
Posted at
December 9, 2024 1:59 PM (GMT+9)
Tags
visualtheoryethicsimage
Project Page
Overview
- 絵画作品を見たことがない人が絵を描けるか??
- アートを含まない学習データを学習したAIモデルをベースに、少数のアート作品の画像でLoRAを学習。きちんとそのアーティストの特徴を掴んだ画像が生成された。
- 生成したアートっぽい画像に寄与した画像を調べることで、アートっぽい画像の生成に学習データ内の自然の画像が影響していることがわかった。
Abstract
We explore the question: “How much prior art knowl- edge is needed to create art?” To investigate this, we pro- pose a text-to-image generation model trained without ac- cess to art-related content. We then introduce a simple yet effective method to learn an art adapter using only a few examples of selected artistic styles. Our experiments show that art generated using our method is perceived by users as comparable to art produced by models trained on large, art-rich datasets. Finally, through data attribution techniques, we illustrate how examples from both artistic and non-artistic datasets contributed to the creation of new artistic styles.
Motivation
- アートの世界では、アウトサイダー・アートやアール・ブリュットのような、アートのコンテクストから離れたところで、(一般的な意味での)アートに触れることなく育った人が、何らかのきっかけでアートと出会い、素晴らしい作品を作り始める人たちが存在する。
- 同様に(広い意味での)アート作品を含まないデータセットを学習したモデルが、少数の学習データに触れることで、アート(っぽい)画像を生成することは可能なのだろうか?
Architecture
- 学習したデータセットは、SA-1Bデータセットをもとにしている
- 元々アート関連の画像を含まない。ただしどちらとも言えるものがたくさん含まれている。
- キャプションにアート関連の単語が含まれる画像、もしくはアート関連の単語とのCLIPの距離がしきい値以下のものはアート関連の画像としてみなして、取り除いた
- 結果的に 900万枚ほどの画像とテキストのペアができた → Art-Free SAMデータセットとして公開
- 完全に取り除くのは難しい。10000枚中に70枚ほどは残ってしまった…
- ベースとなるモデルはLatent Diffusion - Stable Diffusion v1.4
- SD1.4等と同等の生成能力を有することがわかった
- アート、絵画の知識が 今回学習したモデルに含まれていないことも確認
- その上で、少数の対象となるアーティストの画像を少数枚だけ学習。
- LoRAの学習プロセスでは、スタイル誤差とコンテンツ誤差の両方を最適化することで、生成された画像のスタイルのみを変更するように
Results
- LoRAで学習したArtist Adaptorを使うとオリジナルのSD1.4よりもアーティストの特性がよく出た画像が生成できた (そりゃそうだ…)
- Amazon Mechanical Turkで被験者を募り、本物の絵画と一緒に生成した画像を見せて、どちらが本物のスタイルに近いかを聞いたところ、ほとんどの比較対照となる生成手法よりも今回の手法の方が結果が良かった。
- 唯一の例外はSD1.4をベースに StyleAlignedと呼ばれる手法を使った場合のみ
- つまり、アートを大量に学習しなくても、自然の画像等を大量に学習しておけば、少量の作品でそれっぽいものを生成できるようになる!
- 生成された画像に対して、学習データのどの画像がより強い影響を与えたのかを23年に提案されたこちらの手法を使って算出
- 下のマティスの例では、Art-Free SAMデータセットからの影響の方が、スタイルのサンプル(マティスの絵)よりも強かった。
Further Thoughts
論文を読んで考えた個人的感想
- 自然からのインスパイア+ちょっとしたアートとの接触でアートっぽい画像を生成できるようになるというのは、上述のアウトサイダー・アート的な文脈で考えるととても面白い
- が、この結果だけから、「自然の造形がアート的な表現に必要な要素を内包しているため」とまでは言えない。
- もっと単純な画像だけを学習したモデルを作ってその上で、Art Adaptorを学習するとどうなる?
- 逆に絵画等だけを学習したデータを写真でファインチューニングするとどうなるんだろう?
- いい話のようで… 実は少量だけのデータでも、アーティストのスタイルを模倣できちゃうという恐ろしい話のようにも聞こえる
- 実際、インタビューされたアーティストは自分の画風が簡単に学習されることに対して、“terrifying and a bit exciting at the same time”と答えている
Links
今回キュレーションしたデータセット