Active Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指して
Broad, Terence, Sebastian Berns, Simon Colton, and Mick Grierson. 2021. “Active Divergence with Generative Deep Learning -- A Survey and Taxonomy.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2107.05599.
生成モデル(Generative Models)をはじめとするAIモデルの精度が上がる=学習データのパターンをより忠実に再現、再構成できるようになってきた一方で、創造性の観点から言うとそれって学習データものの焼き直しに過ぎないのでは? とう疑問も。 どう適度な逸脱を図るか… が本論文のテーマ。
2021
Overview
- 生成モデル(Generative Models)をはじめとするAIモデルの精度が上がる=学習データのパターンをより忠実に再現、再構成できるようになってきた(Stable Diffusionなどの画像生成モデルを見れば明快) 一方で、創造性の観点から言うとそれって学習データものの焼き直しに過ぎないのでは? とう疑問も。
- Active Digergence: どのように学習データから積極的に意味のある逸脱するかを追求する手法をサーベイ。生成モデルの世界とComputational Creativity研究をつなげた 2021年の論文。
Abstract
Generative deep learning systems offer powerful tools for artefact generation, given their ability to model dis- tributions of data and generate high-fidelity results. In the context of computational creativity, however, a ma- jor shortcoming is that they are unable to explicitly di- verge from the training data in creative ways and are limited to fitting the target data distribution. To address these limitations, there have been a growing number of approaches for optimising, hacking and rewriting these models in order to actively diverge from the training data. We present a taxonomy and comprehensive survey of the state of the art of active divergence techniques, highlighting the potential for computational creativity researchers to advance these methods and use deep gen- erative models in truly creative systems.
Motivation
- 生成モデル=学習データのデータ分布、パターンを学習し再現することが目的。ただ画像生成、音楽生成のような創作に関連する領域では、学習データを模倣するだけでは不十分。かといって、ランダムに生成したら良いということでももちろんない。
- 学習データに内在するパターンを学習しつつ、そこから意味のある適度な逸脱をする(ランダムな逸脱ではなく)ことで、新しいデータを生成することが本質的には望ましい。
- ここでは積極的に逸脱を目指す “Active Divergence” と呼び、その手法をまとめた。
Methods
Active Divergence手法を分類する上でのポイント
- モデルをゼロから学習 vs 学習済みモデルの利用
- 学習データあり vs 学習データなし
- 人の積極的な介在あり vs なるべく自律性を持たせる
手法1: 学習された表現に対するNovelty Search
(TODO: Novelty Searchについてまとめる)
が学習データの真の分布、 が生成モデルによって学習された分布であったときに、に含まれない の部分集合 を求める。
例えば、以下の論文では、MNISTデータセットを学習しつつ、数字っぽいが数字ではない文字を生成することを試みた。
Datasets That Are Not — 新奇性の高い出力を求めたデータセットのAugmentation手法
In this work, we propose expanding the scope of a generative model by iteratively training on generated samples, in addition to the given training data. Our approach takes inspiration from the iterative creative flow used by human artists, wherein artists often first learn from others but then iteratively expand or improve on their own past artistic directions, such as previous artwork, prototypes, or sketches.
createwith.ai
Kazakçi, Akin Osman, Cherti Mehdi, and Balázs Kégl. 2016. “Digits That Are Not: Generating New Types through Deep Neural Nets.” In International Conference on Computational Creativity. https://hal.archives-ouvertes.fr/hal-01427556/.
一方で、が に近づけば近づくほど (精度が上がる)と、上記の部分集合は空集合に近づくというトレードオフが存在。
手法2: 学習データではなく、インスピレーションデータを用いた学習
そもそも学習データをそのままモデル化するような学習をするのではなく、間接的に学習データを使う = インスピレーションデータとここでは呼んでいる
例えば、Creative Adversarial Networks(CAN). GANを拡張することで、学習データ内の絵画のジャンルに当てはまらない画像の生成を試みる (= CANの目的は学習データをそのままモデル化することではない)
過去の作品を学習することで本当に新しい作品が作れるのか?? – CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms
「過去」のアート作品を学習するだけで、真に創造的なな「新しい」アートを作れるのか? というもっともな問いに向き合った論文
createwith.ai
手法3: 学習データなしの学習
学習データをそもそも使わない!
例えば以下の論文では、GANの学習時に学習データを用いず、生成器を二つ用意してお互いにお互いを模倣させる / 識別器は二つの生成器を識別するように学習。
Broad, T., and Grierson, M. 2019a. Searching for an (un)stable equilibrium: experiments in training genera- tive models without data. NeurIPS 2019 Workshop on Machine Learning for Creativity and Design.
手法4: ファインチューニングを用いた逸脱
を学習した学習済みモデル を別のデータセット でファインチューニングする際、ファインチューニングを途中で止めると…. と が混ざった新しい分布 ができる…はず
さらに からサンプリングして生成した画像を、 として使うというフィードバックループを産むことで面白い結果が生まれることも。
手法4:誤差関数のハッキング
例えば… 学習済みのGANの識別器を利用し、通常のGANの目的関数とは逆に、リアルに見えない / 学習データとは異なる方向に、生成器をファインチューニングする。
Broad, Terence, Frederic Fol Leymarie, and Mick Grierson. 2020. “Amplifying The Uncanny.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2002.06890.
手法5: 外部の知識の導入 = 別の学習済みモデルを使ってファイン・チューニング
以下の論文では、学習済みのStyleGANモデルの生成器をテキストプロンプトとCLIPモデルを使ってファイン・チューニング。学習が数分で終わるのも◎
StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
StyleGAN-NADA enables training of GANs without access to any training data.
stylegan-nada.github.io
概念図
手法5: ネットワーク・ベンディング (Network Bending)
学習済みのモデルの重みはそのまま残しつつ、そこに新たにレイヤーを追加。
例えば、以下の論文では、GANの生成器に一般的に画像操作 (拡大、回転などのアフィン変換)に相当するレイヤーを追加。特徴量に操作を加えることで生成される画像をコントロール。
Broad, Terence, Frederic Fol Leymarie, and Mick Grierson. 2021. “Network Bending: Expressive Manipulation of Generative Models in Multiple Domains.” Entropy 24 (1). https://doi.org/10.3390/e24010028.
手法6: ネットワーク・ブレンディング (Network Blending)
- 複数のモデルの出力をミックスする、あるいは複数のモデルの重みをミックスする手法。
- 例えば… 同じ学習済みモデルからスタートして、異なるデータでFine-tuningした複数のモデル (構造が同じ / 重みの分散が近い) の重みをミックスすると… 面白い効果が得られる (右図)
- 以下のようにパラメータを線形補間すると… 出力をコントロールできる。が大元の学習済みモデルのパラメータ. がファインチューニングしたモデル.
手法6: モデルの書き換え
(メモ: ネットワーク・ベンディングとどう違う?)
- 確率的に学習済みモデルの重みを変えたり、レイヤーを入れ替えたり…
- 学習済みモデルの特定のレイヤー以外のレイヤーを固定。生成した画像の一部を改変 → 生成画像が改変後の画像に近くなるように、固定していないレイヤーの重みを勾配法で最適化する。
Bau, D.; Liu, S.; Wang, T.; Zhu, J.-Y.; and Torralba, A. 2020. Rewriting a deep generative model. In Proc. Euro- pean Conference on Computer Vision (ECCV).
Neural Glitch by Mario Klingemann
Results
Active Divergence: どこで役に立つ??
- 新奇性の高いデータの生成
- 創作のサポート、AIとの共創
- 大量の学習データを集めるのは大変 → 本論文の手法を応用することで、既存のデータの新奇な組み合わせが可能 = 人工的にデータを増やすことも可能 (data augmentation)
- 既知のドメインから未知のドメインへの知識(学習したモデル)の転用をより容易に
- 創造性の指標として
Further Thoughts
論文を読んで考えた個人的感想
- やっぱり最終的には教師あり学習では難しいのでは? 強化学習のようなフレームワークを応用する必要あり??
Links
次に読む
Cherti, Mehdi, Balázs Kégl, and Akin Kazakçı. 2017. “Out-of-Class Novelty Generation : An Experimental Foundation.” In 2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI), 1312–19.
Collins, Nick, Vít Růžička, and Mick Grierson. n.d. “Remixing AIs: Mind Swaps, Hybrainity, and Splicing Musical Models.” Accessed November 12, 2023. https://boblsturm.github.io/aimusic2020/papers/CSMC__MuMe_2020_paper_2.pdf.