Active Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指して
Broad, Terence, Sebastian Berns, Simon Colton, and Mick Grierson. 2021. “Active Divergence with Generative Deep Learning -- A Survey and Taxonomy.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2107.05599.
生成モデル(Generative Models)をはじめとするAIモデルの精度が上がる=学習データのパターンをより忠実に再現、再構成できるようになってきた一方で、創造性の観点から言うとそれって学習データものの焼き直しに過ぎないのでは? とう疑問も。 どう適度な逸脱を図るか… が本論文のテーマ。
2021
Overview
- 生成モデル(Generative Models)をはじめとするAIモデルの精度が上がる=学習データのパターンをより忠実に再現、再構成できるようになってきた(Stable Diffusionなどの画像生成モデルを見れば明快) 一方で、創造性の観点から言うとそれって学習データものの焼き直しに過ぎないのでは? とう疑問も。
- Active Digergence: どのように学習データから積極的に意味のある逸脱するかを追求する手法をサーベイ。生成モデルの世界とComputational Creativity研究をつなげた 2021年の論文。
Abstract
Generative deep learning systems offer powerful tools for artefact generation, given their ability to model dis- tributions of data and generate high-fidelity results. In the context of computational creativity, however, a ma- jor shortcoming is that they are unable to explicitly di- verge from the training data in creative ways and are limited to fitting the target data distribution. To address these limitations, there have been a growing number of approaches for optimising, hacking and rewriting these models in order to actively diverge from the training data. We present a taxonomy and comprehensive survey of the state of the art of active divergence techniques, highlighting the potential for computational creativity researchers to advance these methods and use deep gen- erative models in truly creative systems.
Motivation
- 生成モデル=学習データのデータ分布、パターンを学習し再現することが目的。ただ画像生成、音楽生成のような創作に関連する領域では、学習データを模倣するだけでは不十分。かといって、ランダムに生成したら良いということでももちろんない。
- 学習データに内在するパターンを学習しつつ、そこから意味のある適度な逸脱をする(ランダムな逸脱ではなく)ことで、新しいデータを生成することが本質的には望ましい。
- ここでは積極的に逸脱を目指す “Active Divergence” と呼び、その手法をまとめた。
Methods
Active Divergence手法を分類する上でのポイント
- モデルをゼロから学習 vs 学習済みモデルの利用
- 学習データあり vs 学習データなし
- 人の積極的な介在あり vs なるべく自律性を持たせる
手法1: 学習された表現に対するNovelty Search
(TODO: Novelty Searchについてまとめる)
が学習データの真の分布、 が生成モデルによって学習された分布であったときに、に含まれない の部分集合 を求める。
例えば、以下の論文では、MNISTデータセットを学習しつつ、数字っぽいが数字ではない文字を生成することを試みた。
Kazakçi, Akin Osman, Cherti Mehdi, and Balázs Kégl. 2016. “Digits That Are Not: Generating New Types through Deep Neural Nets.” In International Conference on Computational Creativity. https://hal.archives-ouvertes.fr/hal-01427556/.
一方で、が に近づけば近づくほど (精度が上がる)と、上記の部分集合は空集合に近づくというトレードオフが存在。
手法2: 学習データではなく、インスピレーションデータを用いた学習
そもそも学習データをそのままモデル化するような学習をするのではなく、間接的に学習データを使う = インスピレーションデータとここでは呼んでいる
例えば、Creative Adversarial Networks(CAN). GANを拡張することで、学習データ内の絵画のジャンルに当てはまらない画像の生成を試みる (= CANの目的は学習データをそのままモデル化することではない)
手法3: 学習データなしの学習
学習データをそもそも使わない!
例えば以下の論文では、GANの学習時に学習データを用いず、生成器を二つ用意してお互いにお互いを模倣させる / 識別器は二つの生成器を識別するように学習。
Broad, T., and Grierson, M. 2019a. Searching for an (un)stable equilibrium: experiments in training genera- tive models without data. NeurIPS 2019 Workshop on Machine Learning for Creativity and Design.
手法4: ファインチューニングを用いた逸脱
を学習した学習済みモデル を別のデータセット でファインチューニングする際、ファインチューニングを途中で止めると…. と が混ざった新しい分布 ができる…はず
さらに からサンプリングして生成した画像を、 として使うというフィードバックループを産むことで面白い結果が生まれることも。
手法4:誤差関数のハッキング
例えば… 学習済みのGANの識別器を利用し、通常のGANの目的関数とは逆に、リアルに見えない / 学習データとは異なる方向に、生成器をファインチューニングする。
Broad, Terence, Frederic Fol Leymarie, and Mick Grierson. 2020. “Amplifying The Uncanny.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2002.06890.
手法5: 外部の知識の導入 = 別の学習済みモデルを使ってファイン・チューニング
以下の論文では、学習済みのStyleGANモデルの生成器をテキストプロンプトとCLIPモデルを使ってファイン・チューニング。学習が数分で終わるのも◎
手法5: ネットワーク・ベンディング (Network Bending)
学習済みのモデルの重みはそのまま残しつつ、そこに新たにレイヤーを追加。
例えば、以下の論文では、GANの生成器に一般的に画像操作 (拡大、回転などのアフィン変換)に相当するレイヤーを追加。特徴量に操作を加えることで生成される画像をコントロール。
Broad, Terence, Frederic Fol Leymarie, and Mick Grierson. 2021. “Network Bending: Expressive Manipulation of Generative Models in Multiple Domains.” Entropy 24 (1). https://doi.org/10.3390/e24010028.
手法6: ネットワーク・ブレンディング (Network Blending)
- 複数のモデルの出力をミックスする、あるいは複数のモデルの重みをミックスする手法。
- 例えば… 同じ学習済みモデルからスタートして、異なるデータでFine-tuningした複数のモデル (構造が同じ / 重みの分散が近い) の重みをミックスすると… 面白い効果が得られる (右図)
- 以下のようにパラメータを線形補間すると… 出力をコントロールできる。が大元の学習済みモデルのパラメータ. がファインチューニングしたモデル.
手法6: モデルの書き換え
(メモ: ネットワーク・ベンディングとどう違う?)
- 確率的に学習済みモデルの重みを変えたり、レイヤーを入れ替えたり…
- 学習済みモデルの特定のレイヤー以外のレイヤーを固定。生成した画像の一部を改変 → 生成画像が改変後の画像に近くなるように、固定していないレイヤーの重みを勾配法で最適化する。
Bau, D.; Liu, S.; Wang, T.; Zhu, J.-Y.; and Torralba, A. 2020. Rewriting a deep generative model. In Proc. Euro- pean Conference on Computer Vision (ECCV).
Neural Glitch by Mario Klingemann
Results
Active Divergence: どこで役に立つ??
- 新奇性の高いデータの生成
- 創作のサポート、AIとの共創
- 大量の学習データを集めるのは大変 → 本論文の手法を応用することで、既存のデータの新奇な組み合わせが可能 = 人工的にデータを増やすことも可能 (data augmentation)
- 既知のドメインから未知のドメインへの知識(学習したモデル)の転用をより容易に
- 創造性の指標として
Further Thoughts
論文を読んで考えた個人的感想
- やっぱり最終的には教師あり学習では難しいのでは? 強化学習のようなフレームワークを応用する必要あり??
Links
次に読む
Cherti, Mehdi, Balázs Kégl, and Akin Kazakçı. 2017. “Out-of-Class Novelty Generation : An Experimental Foundation.” In 2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI), 1312–19.
Collins, Nick, Vít Růžička, and Mick Grierson. n.d. “Remixing AIs: Mind Swaps, Hybrainity, and Splicing Musical Models.” Accessed November 12, 2023. https://boblsturm.github.io/aimusic2020/papers/CSMC__MuMe_2020_paper_2.pdf.