Entry
Datagen - AIの学習データをAIで生成、提供するスタートアップ
Simple Title
-
Description
バイアスやプライバシーへの配慮から、人を対象にしたデータセットを集めることが難しくなっている。そこでGANなどを使って、適切なデータセットを人工的に作り出す仕組みを提供するスタートアップが登場した。
Type
Dataset
Year
2021
Posted at
June 12, 2021
Tags
ethicssociety
Project Page
Overview - 何がすごい?
- AIの学習にはデータセットが必要なのは言うまでもないが、ことに人を対象にしたAIモデルの学習データを集めることが、プライバシーへ懸念などから難しくなりつつある。さらに偏った学習データがもたらすバイアスの問題にもセンシティブにならざるを得ない。
- そこで、学習データを「集める」のではなく、「生成する」という考え方が生まれた
- DatagenはこうしたSynthetic Dataset/Simulated Dataを提供するイスラエルのスタートアップ。
Technology
- 同意をとった上で、人の顔や体のデータを3Dスキャンで精密に取得 → GANで多様なバリエーションを生成
- 身の回りのオブジェクトなども同様にスキャン → GANで多様なバリエーションを生成
- 奥行き方向の情報なども含めた室内の環境なども合成
Applications
- 例えば、AIカメラを用いたお店のソリューション。当然、様々な年齢層、人種、性別の顧客に対応する必要があるが、Datagenを使えば、ターゲットになる顧客にあったデータセットを 簡単に手に入れられる。 例) 原宿にあるお店であれば、日本人の顔、しかも若者をきちんと見分ける必要がある → アジア系で年齢層が10代、20代の顔を大量に生成して学習データとして利用する、といったことが考えられる。
- 同様のスタートアップとして、車の画像データを合成する Click-ins がある。 今後、AIによる車の判別が一般化すると、新車種が発売されるたびにモデルを学習するために、その新車種が含まれる画像データが必要になるかもしれない。その時にClick-insは、多様な背景、多様な環境条件で、対象となる新車種の画像を合成して、学習データとして使えるようにするという。
Further Thoughts
- AIの学習データをAI自体が合成するという仕組みは面白い。
- 確かに偏りのないデータセットが必要なのは間違いないが、こういった合成データセットが、新たなバイアスを導入する可能性はないのだろうか。
- どんどん AI監視社会が加速しそうな恐ろしさ