💾

FakeAVCeleb - ディープフェイク技術で作った顔と話し声のデータセット

Entry
FakeAVCeleb - ィープフェイク技術で作った顔と話し声のデータセット
Simple Title
FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset, Hasam Khalid, Shahroz Tariq, Minha Kim, Simon S. Woo (2021)
Description
顔をディープフェイク技術で動かし、リップシンクした音声を追加することで作ったDeepfake動画のデータセット。ディープフェイクへの対抗策の研究が目的。
Type
Dataset
Year
2021
Posted at
September 8, 2021
Tags
ethicssociety
FakeAVCelebデータセットのサンプル。音声も動画も本物。音声か動画のどちらかが本物でもう一方が合成。両方が合成の4パターンの動画群があることがわかる。
FakeAVCelebデータセットのサンプル。音声も動画も本物。音声か動画のどちらかが本物でもう一方が合成。両方が合成の4パターンの動画群があることがわかる。

Overview

  • ディープフェイク技術を使ったフェイクニュースなどが社会問題になる中で、その認識技術の開発のためのデータセットが公開。
  • 今までもこうしたデータセットは存在したが、これまでは動画か音声のどちらかだけだった。このデータセットでは、合成した動画、音声をリップシンク技術で結びつけることで、音声付きの動画を大量に作った。

Data

  • YouTubeのビデオからセレブの動画を選択。合成した音声に合わせてリップシンクした動画をつくることで、本人が言ってもいないことを話している動画を作った。
  • 音声も動画も本物。音声か動画のどちらかが本物でもう一方が合成。両方が合成の4パターンの動画群を作った。
  • フェイク動画の合成には、Face swap(FSGAN, FACESWAP), LipSync (Wav2Lip)などが使われた。
  • 白人、黒人、東アジア人、南アジア人、四つの人種に対してデータを集めることで、なるべく人種が偏らないように意識した。

フェイク動画を作るプロセス
フェイク動画を作るプロセス

Applications

  • 既存のディープフェイク動画識別モデルをこのデータセットや他のデータセットにかけて、その精度を計測。このデータセット(FakeAVCeleb 右端)のデータは識別が比較的難しいことがわかる。
既存の識別モデルの性能
既存の識別モデルの性能

Further Thoughts

  • 逆にフェイク動画の作り方の参考にもなった。
  • データセットが充実することで識別モデルの性能のベンチマークがはっきりする。

Links