⚒️

Datagen - AIの学習データをAIで生成、提供するスタートアップ

Entry

Datagen - AIの学習データをAIで生成、提供するスタートアップ

Simple Title

-

Description

バイアスやプライバシーへの配慮から、人を対象にしたデータセットを集めることが難しくなっている。そこでGANなどを使って、適切なデータセットを人工的に作り出す仕組みを提供するスタートアップが登場した。

Type
Dataset
Year

2021

Posted at
June 12, 2021
Tags
ethicssociety
Project Page
https://www.datagen.tech/

Overview - 何がすごい?

  • AIの学習にはデータセットが必要なのは言うまでもないが、ことに人を対象にしたAIモデルの学習データを集めることが、プライバシーへ懸念などから難しくなりつつある。さらに偏った学習データがもたらすバイアスの問題にもセンシティブにならざるを得ない。
  • そこで、学習データを「集める」のではなく、「生成する」という考え方が生まれた
  • DatagenはこうしたSynthetic Dataset/Simulated Dataを提供するイスラエルのスタートアップ。
Datagenが提供する顔のデータセットの例 (Datagenのwebサイトより)
Datagenが提供する顔のデータセットの例 (Datagenのwebサイトより)

Technology

  • 同意をとった上で、人の顔や体のデータを3Dスキャンで精密に取得 → GANで多様なバリエーションを生成
写真はいずれもDataganから
写真はいずれもDataganから
image
  • 身の回りのオブジェクトなども同様にスキャン → GANで多様なバリエーションを生成
  • 奥行き方向の情報なども含めた室内の環境なども合成
image
image

Applications

  • 例えば、AIカメラを用いたお店のソリューション。当然、様々な年齢層、人種、性別の顧客に対応する必要があるが、Datagenを使えば、ターゲットになる顧客にあったデータセットを 簡単に手に入れられる。 例) 原宿にあるお店であれば、日本人の顔、しかも若者をきちんと見分ける必要がある → アジア系で年齢層が10代、20代の顔を大量に生成して学習データとして利用する、といったことが考えられる。
生成できる顔の多様性について (Datagen)
生成できる顔の多様性について (Datagen)
  • 同様のスタートアップとして、車の画像データを合成する Click-ins がある。 今後、AIによる車の判別が一般化すると、新車種が発売されるたびにモデルを学習するために、その新車種が含まれる画像データが必要になるかもしれない。その時にClick-insは、多様な背景、多様な環境条件で、対象となる新車種の画像を合成して、学習データとして使えるようにするという。

Further Thoughts

  • AIの学習データをAI自体が合成するという仕組みは面白い。
  • 確かに偏りのないデータセットが必要なのは間違いないが、こういった合成データセットが、新たなバイアスを導入する可能性はないのだろうか。
  • どんどん AI監視社会が加速しそうな恐ろしさ

Links

These creepy fake humans herald a new age in AI

Once viewed as less desirable than real data, synthetic data is now seen by some as a panacea. Real data is messy and riddled with bias. New data privacy regulations make it hard to collect. By contrast, synthetic data is pristine and can be used to build more diverse data sets.

These creepy fake humans herald a new age in AI