Entry
Type
Paper
Year
@June 18, 2024 9:30 PM (GMT+1)
Posted at
December 13, 2024 4:33 PM (GMT+9)
Tags
Overview
- AIが生成したデータでAIモデルを学習することを繰り返すと、数世代のうちに、AIの精度はガクッと下がってしまう。
- 今後、AI生成のデータが相対的に多数を占めるようになり、人間の手による学習データ(テキスト、画像 etc)が少数になった時に、大きな問題になりそう。
Abstract
Stable diffusion revolutionized image creation from descriptive text. GPT-2 (ref. 1), GPT-3(.5) (ref. 2) and GPT-4 (ref. 3) demonstrated high performance across a variety of language tasks. ChatGPT introduced such language models to the public. It is now clear that generative artificial intelligence (AI) such as large language models (LLMs) is here to stay and will substantially change the ecosystem of online text and images. Here we consider what may happen to GPT-{n} once LLMs contribute much of the text found online. We find that indiscriminate use of model-generated content in training causes irreversible defects in the resulting models, in which tails of the original content distribution disappear. We refer to this effect as ‘model collapse’ and show that it can occur in LLMs as well as in variational autoencoders (VAEs) and Gaussian mixture models (GMMs). We build theoretical intuition behind the phenomenon and portray its ubiquity among all learned generative models. We demonstrate that it must be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuinehuman interactions with systems will be increasingly valuable in the presence of LLM-generated content in data crawled from the Internet.
Motivation
Architecture
- 学習ずみのオープンソースのLLM (OPT-125M)をベースのモデルとして利用。wikitext2のデータセットでファインチューニングしていく。
- ”LLMをゼロから学習しても同じことになると思うが、平均的なアメリカ人の一生分の二倍のCO2放出量に相当することになるのでその実験はやめました”…とある。
- 64トークンから次の64トークンを予測するように学習。
- 最初はwikitext2のデータのみで学習。次の世代からは、学習したモデルが生成したテキストを学習に用いるかたちで、生成と学習を繰り返す。
- シナリオを二つ用意
- 5エポック: オリジナルの学習データ(wikitext2のテキスト)は、一番最初のモデルの学習にしか利用しない
- 10エポック: オリジナルの学習データを10%ランダムにサンプルして学習時に加える
Results
Further Thoughts
論文を読んで考えた個人的感想
Links
- LLMのカーボンフットプリントについてはこちら