WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット

WebFace260M - インターネット上で集められた2億6千万枚の顔写真のデータセット
Simple Title
Zhu, Z., Huang, G., Deng, J., Ye, Y., Huang, J., Chen, X., … Zhou, J. (2021). WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition
Posted at
June 3, 2021
既存の顔写真のデータセットとの比較 - このデータセット(赤丸)の規模が際立っている
既存の顔写真のデータセットとの比較 - このデータセット(赤丸)の規模が際立っている


In this paper, we contribute a new million-scale face benchmark containing noisy 4M identities/260M faces (WebFace260M) and cleaned 2M identities/42M faces (WebFace42M) training data, as well as an elaborately de- signed time-constrained evaluation protocol. Firstly, we collect 4M name list and download 260M faces from the Internet. Then, a Cleaning Automatically utilizing Self- Training (CAST) pipeline is devised to purify the tremen- dous WebFace260M, which is efficient and scalable. To the best ofour knowledge, the cleaned WebFace42M is the largest public face recognition training set and we expect to close the data gap between academia and industry. Refer- ring to practical scenarios, Face Recognition Under Infer- ence Time conStraint (FRUITS) protocol and a test set are constructed to comprehensively evaluate face matchers. Equipped with this benchmark, we delve into million- scale face recognition problems. A distributed framework is developed to train face recognition models efficiently with- out tampering with the performance. Empowered by Web- Face42M, we reduce relative 40% failure rate on the chal- lenging IJB-C set, and ranks the 3rd among 430 entries on NIST-FRVT. Even 10% data (WebFace4M) shows supe- rior performance compared with public training set. Fur- thermore, comprehensive baselines are established on our rich-attribute test set under FRUITS-100ms/500ms/1000ms protocol, including MobileNet, EfficientNet, AttentionNet, ResNet, SENet, ResNeXt and RegNet families. Benchmark website is https://www.face-benchmark.org.


  • ネット上で集められた顔写真の巨大なデータセット
  • 400万人の人の2億6000万枚の顔写真のデータセットと、ゴミデータを取り除いた200万人/4200万枚の顔写真のデータセットの二種類を提供


  • これだけの規模のデータで顔認識のモデルを学習するために、学習用の分散システムを提案

Further Thoughts

  • まさしく監視、個人のトラッキングのためのシステム
  • 学習データセットに自分の顔が含まれていないか気になる。