📄

Active Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指して

Entry
Active Divergenceのサーベイ — 学習データの忠実な再現からの適度な逸脱を目指して
Simple Title
Broad, Terence, Sebastian Berns, Simon Colton, and Mick Grierson. 2021. “Active Divergence with Generative Deep Learning -- A Survey and Taxonomy.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2107.05599.
Description
生成モデル(Generative Models)をはじめとするAIモデルの精度が上がる=学習データのパターンをより忠実に再現、再構成できるようになってきた一方で、創造性の観点から言うとそれって学習データものの焼き直しに過ぎないのでは? とう疑問も。 どう適度な逸脱を図るか… が本論文のテーマ。
Type
Paper
Year
2021
Posted at
November 12, 2023
Tags
GANarttheory

image

Overview

  • 生成モデル(Generative Models)をはじめとするAIモデルの精度が上がる=学習データのパターンをより忠実に再現、再構成できるようになってきた(Stable Diffusionなどの画像生成モデルを見れば明快) 一方で、創造性の観点から言うとそれって学習データものの焼き直しに過ぎないのでは? とう疑問も。
  • Active Digergence: どのように学習データから積極的に意味のある逸脱するかを追求する手法をサーベイ。生成モデルの世界とComputational Creativity研究をつなげた 2021年の論文。

Abstract

Generative deep learning systems offer powerful tools for artefact generation, given their ability to model dis- tributions of data and generate high-fidelity results. In the context of computational creativity, however, a ma- jor shortcoming is that they are unable to explicitly di- verge from the training data in creative ways and are limited to fitting the target data distribution. To address these limitations, there have been a growing number of approaches for optimising, hacking and rewriting these models in order to actively diverge from the training data. We present a taxonomy and comprehensive survey of the state of the art of active divergence techniques, highlighting the potential for computational creativity researchers to advance these methods and use deep gen- erative models in truly creative systems.

Motivation

  • 生成モデル=学習データのデータ分布、パターンを学習し再現することが目的。ただ画像生成、音楽生成のような創作に関連する領域では、学習データを模倣するだけでは不十分。かといって、ランダムに生成したら良いということでももちろんない。
  • 学習データに内在するパターンを学習しつつ、そこから意味のある適度な逸脱をする(ランダムな逸脱ではなく)ことで、新しいデータを生成することが本質的には望ましい。
  • ここでは積極的に逸脱を目指す Active Divergence” と呼び、その手法をまとめた。

Methods

Active Divergence手法を分類する上でのポイント

  • モデルをゼロから学習 vs 学習済みモデルの利用
  • 学習データあり vs 学習データなし
  • 人の積極的な介在あり vs なるべく自律性を持たせる

手法1: 学習された表現に対するNovelty Search

(TODO: Novelty Searchについてまとめる)

PPが学習データの真の分布、 PP^{\prime}が生成モデルによって学習された分布であったときに、PPに含まれない PP^{\prime}の部分集合 を求める。

UPU⊄PU \subset P^{\prime} \wedge U \not \subset P

例えば、以下の論文では、MNISTデータセットを学習しつつ、数字っぽいが数字ではない文字を生成することを試みた。

一方で、PP^{\prime}PP に近づけば近づくほど (精度が上がる)と、上記の部分集合は空集合に近づくというトレードオフが存在。

手法2: 学習データではなく、インスピレーションデータを用いた学習

そもそも学習データをそのままモデル化するような学習をするのではなく、間接的に学習データを使う = インスピレーションデータとここでは呼んでいる

例えば、Creative Adversarial Networks(CAN). GANを拡張することで、学習データ内の絵画のジャンルに当てはまらない画像の生成を試みる (= CANの目的は学習データをそのままモデル化することではない)

手法3: 学習データなしの学習

学習データをそもそも使わない!

例えば以下の論文では、GANの学習時に学習データを用いず、生成器を二つ用意してお互いにお互いを模倣させる / 識別器は二つの生成器を識別するように学習。

Broad, T., and Grierson, M. 2019a. Searching for an (un)stable equilibrium: experiments in training genera- tive models without data. NeurIPS 2019 Workshop on Machine Learning for Creativity and Design.

二つの生成器がお互いを模倣する様子

手法4: ファインチューニングを用いた逸脱

PP を学習した学習済みモデル PP^{\prime} を別のデータセット QQ でファインチューニングする際、ファインチューニングを途中で止めると…. PP^{\prime}QQ^{\prime} が混ざった新しい分布 UU ができる…はず

さらに PP^{\prime}からサンプリングして生成した画像を、QQ として使うというフィードバックループを産むことで面白い結果が生まれることも。

左記の学習データのフィードバックを用いた
左記の学習データのフィードバックを用いたMal Somの作品

手法4:誤差関数のハッキング

例えば… 学習済みのGANの識別器を利用し、通常のGANの目的関数とは逆に、リアルに見えない / 学習データとは異なる方向に、生成器をファインチューニングする。

Broad, Terence, Frederic Fol Leymarie, and Mick Grierson. 2020. “Amplifying The Uncanny.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2002.06890.

image

手法5: 外部の知識の導入 = 別の学習済みモデルを使ってファイン・チューニング

以下の論文では、学習済みのStyleGANモデルの生成器をテキストプロンプトとCLIPモデルを使ってファイン・チューニング。学習が数分で終わるのも◎

手法5: ネットワーク・ベンディング (Network Bending)

学習済みのモデルの重みはそのまま残しつつ、そこに新たにレイヤーを追加。

例えば、以下の論文では、GANの生成器に一般的に画像操作 (拡大、回転などのアフィン変換)に相当するレイヤーを追加。特徴量に操作を加えることで生成される画像をコントロール。

Broad, Terence, Frederic Fol Leymarie, and Mick Grierson. 2021. “Network Bending: Expressive Manipulation of Generative Models in Multiple Domains.” Entropy 24 (1). https://doi.org/10.3390/e24010028.

StyleGANのネットワークベンディング
StyleGANのネットワークベンディング

手法6: ネットワーク・ブレンディング (Network Blending)

  • 複数のモデルの出力をミックスする、あるいは複数のモデルの重みをミックスする手法。
  • 例えば… 同じ学習済みモデルからスタートして、異なるデータでFine-tuningした複数のモデル (構造が同じ / 重みの分散が近い) の重みをミックスすると… 面白い効果が得られる (右図)

  • 以下のようにパラメータを線形補間すると… 出力をコントロールできる。pbasep_{base}が大元の学習済みモデルのパラメータ. ptransferp_{transfer}がファインチューニングしたモデル.
pinterp =(1α)pbase +αptransfer p_{\text {interp }}=(1-\alpha) p_{\text {base }}+\alpha p_{\text {transfer }}

手法6: モデルの書き換え

(メモ: ネットワーク・ベンディングとどう違う?)

  • 確率的に学習済みモデルの重みを変えたり、レイヤーを入れ替えたり…

  • 学習済みモデルの特定のレイヤー以外のレイヤーを固定。生成した画像の一部を改変 → 生成画像が改変後の画像に近くなるように、固定していないレイヤーの重みを勾配法で最適化する。

Bau, D.; Liu, S.; Wang, T.; Zhu, J.-Y.; and Torralba, A. 2020. Rewriting a deep generative model. In Proc. Euro- pean Conference on Computer Vision (ECCV).

image

Neural Glitch by Mario Klingemann

Results

Active Divergence: どこで役に立つ??

  • 新奇性の高いデータの生成
  • 創作のサポート、AIとの共創
  • 大量の学習データを集めるのは大変 → 本論文の手法を応用することで、既存のデータの新奇な組み合わせが可能 = 人工的にデータを増やすことも可能 (data augmentation)
  • 既知のドメインから未知のドメインへの知識(学習したモデル)の転用をより容易に
  • 創造性の指標として

Further Thoughts

論文を読んで考えた個人的感想

  • やっぱり最終的には教師あり学習では難しいのでは? 強化学習のようなフレームワークを応用する必要あり??

Links

次に読む

Cherti, Mehdi, Balázs Kégl, and Akin Kazakçı. 2017. “Out-of-Class Novelty Generation : An Experimental Foundation.” In 2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI), 1312–19.

Collins, Nick, Vít Růžička, and Mick Grierson. n.d. “Remixing AIs: Mind Swaps, Hybrainity, and Splicing Musical Models.” Accessed November 12, 2023. https://boblsturm.github.io/aimusic2020/papers/CSMC__MuMe_2020_paper_2.pdf.