Entry
FakeAVCeleb - ィープフェイク技術で作った顔と話し声のデータセット
Simple Title
FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset, Hasam Khalid, Shahroz Tariq, Minha Kim, Simon S. Woo (2021)
Description
顔をディープフェイク技術で動かし、リップシンクした音声を追加することで作ったDeepfake動画のデータセット。ディープフェイクへの対抗策の研究が目的。
Type
Dataset
Year
2021
Posted at
September 8, 2021
Tags
ethicssociety
Overview
- ディープフェイク技術を使ったフェイクニュースなどが社会問題になる中で、その認識技術の開発のためのデータセットが公開。
- 今までもこうしたデータセットは存在したが、これまでは動画か音声のどちらかだけだった。このデータセットでは、合成した動画、音声をリップシンク技術で結びつけることで、音声付きの動画を大量に作った。
Data
- YouTubeのビデオからセレブの動画を選択。合成した音声に合わせてリップシンクした動画をつくることで、本人が言ってもいないことを話している動画を作った。
- 音声も動画も本物。音声か動画のどちらかが本物でもう一方が合成。両方が合成の4パターンの動画群を作った。
- フェイク動画の合成には、Face swap(FSGAN, FACESWAP), LipSync (Wav2Lip)などが使われた。
- 白人、黒人、東アジア人、南アジア人、四つの人種に対してデータを集めることで、なるべく人種が偏らないように意識した。
Applications
- 既存のディープフェイク動画識別モデルをこのデータセットや他のデータセットにかけて、その精度を計測。このデータセット(FakeAVCeleb 右端)のデータは識別が比較的難しいことがわかる。
Further Thoughts
- 逆にフェイク動画の作り方の参考にもなった。
- データセットが充実することで識別モデルの性能のベンチマークがはっきりする。