高质量经典人脸数据集汇总 · 附下载地址
作者:graviti
发布于 12/14/2020

本文汇总并介绍了八个具有代表性的优质人脸数据集,并附上相应的高速下载地址。

针对海外数据获取难、下载慢的问题,公开数据集下载平台Graviti Open Datasets给出了一站式解决方案——将全球资源Host至国内镜像,无需VPN访问即可享受高速下载。

1、Wider face数据集

发布方:香港中文大学Multimedia Laboratory

发布时间:2015年

数据集大小:3.42GB

WIDER FACE数据集是一个面部检测基准数据集,图片是从公开数据集WIDER数据集中选择的。该数据集一共包含32,203张图像和393,703个面部标记,在面部大小、姿势和遮挡物都有很大的不同。如示例图像中所示。WIDER FACE数据集基于61个事件类别进行分类。对于每个事件类别,随机选择40%/ 10%/ 50%数据作为训练,验证和测试集。Graviti已经收录了该数据集,并可以对图片进行预览,查看标签分布。

下载WIDER FACE数据集:https://www.graviti.cn/dataset-detail/WIDER_FACE

2、VGGFace数据集

发布方:牛津大学视觉几何组

发布时间:2015年

数据集大小:VGGFace2「37.26GB」、VGGFace1

数据集包含2,622个人的200万张图片。每个身份都有一个关联的文本文件,其中包含图像的URL和相应的面部检测。VGG后来又发布了VGG-Face 2 Dataset,这是一个大规模人脸识别数据集,其包含共计 9131 个人的面部数据。VGG数据集的图像均来自 Google 的图片搜索,在姿势、年龄、种族和职业方面有很大差异。

下载VGG数据集:

VGG Face:https://www.graviti.cn/open-datasets/VGGFace

VGG Face2:https://www.graviti.cn/dataset-detail/VGGFace2

3、LFW数据集

发布方:University of Massachusetts

发布时间:2007年

LFW (Labeled Faces in the Wild) 人脸数据库是是目前人脸识别的常用测试集。该数据集是由美国马萨诸塞州立大学阿默斯特分校计算机视觉实验室整理完成的数据库,主要用来研究非受限情况下的人脸识别问题。其中提供的人脸图片均来源于生活中的自然场景,因此识别难度会增大,尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。并且有些照片中可能不止一个人脸出现,对这些多人脸图像仅选择中心坐标的人脸作为目标,其他区域的视为背景干扰。LFW数据集主要是从互联网上搜集图像,共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片,其中有1680 人包含两个以上的人脸图像。每张图片的尺寸为250X250,绝大部分为彩色图像,也存在少许黑白人脸图片。

下载LFW数据集:https://www.graviti.cn/open-datasets/dataset-detail/LFW

4、CACD数据集

发布方:陈柏村,毕业于国立台湾大学。目前攻读马里兰大学计算科学系博士学位。

发布时间:2014年

数据集大小:7.83GB

CACD数据集的全称是Cross Age Celebrity Dataset,是为了研究跨年龄的人脸识别和检索。该数据集包含16万至16岁至62岁之间的超过100,000张2,000名名人的图像。据我们所知,它是迄今为止最大的可公开获得的跨年龄面部数据集。实验结果表明,所提出的方法可以在我们的数据集以及其他用于跨年龄的人脸识别的数据集MORPH数据集上均达到最先进的性能。

该据集包含超过16万张16岁至62岁之间的2,000位名人的图像。所有图像均是从搜索引擎上搜索下载的。下载的数据集包含两个MATLAB结构:

celebrityData-包含2,000位名人的信息

  • 名字-名人名字
  • 身份-名人ID
  • 出生-名人出生年
  • 等级-构建数据集时IMDB.com中具有相同出生年份的名人等级
  • lfw-名人是否在LFW数据集中

celebrityImageData-包含面部图像的信息

  • 年龄-名人的估计年龄
  • 身份-名人ID
  • 年-拍摄照片的估计年份
  • 特征-从16个面部标志中提取的75520维LBP特征
  • 名称-图像的文件名

下载CACD数据集:https://www.graviti.cn/open-datasets/CACD

5、Head Pose Image 数据集

发布方:Inria,法国国家研究所,致力于研究计算机科学和应用数学。

发布时间:2004年

数据集大小:27.19MB

head pose image数据集是包含15个人的2790张单个面部图像的基准数据集,其摇摄和倾斜角度从-90度到+90度不等。针对每个人,都有2个系列的图像,每个系列包含93幅图像(93种不同姿势)可用。每人拥有2个系列的目的是能够在同一个人的面部上训练和测试算法。数据库中的人有戴眼镜也有不戴的,并且肤色多种多样。脸部位于图像中央且背景整洁,以便专注于面部的识别。

下载Head Pose Image数据集:https://www.graviti.cn/dataset-detail/HeadPoseImage

6、YouTube Face DB数据集

发布方:  Lior Wolf,以色列特拉维夫大学Blavatnik计算机科学学院

发布时间:2012

数据集大小:671.41GB

YouTube Face是一个人脸视频数据库,旨在研究视频中非受限情况下的人脸识别的问题。数据集包含1,595个不同人的3,425个视频,都是从YouTube下载的。每个主题平均包含2.15个视频。视频剪辑持续时间最短为48帧,最长为6,070帧,平均长度为181.3帧。

每人的视频数量:

#videos

1

2

3

4

5

6

#人

591

471

307

167

51

8

下载YouTube Face DB数据集:https://www.graviti.cn/open-datasets/YouTubeFacesDB

7、CelebA数据集

发布方:香港中文大学Multimedia Laboratory

发布时间:2016年

数据集大小:9.55 GB

CelebFaces属性数据集(CelebA)是一个大规模的面部属性数据集,其中包含超过20万名人图像,每个图像都有40个属性注释。该数据集中的图像涵盖了较大的姿势变化和背景杂波。CelebA具有多种多样,数量众多且注释丰富的特点,包括:

  • 10,177个不同的ID
  • 202,599张人脸图像
  • 该数据集可用作以下计算机视觉任务的训练和测试集:面部属性识别,面部检测,五官(或面部部分)定位以及面部编辑和合成。

2020年,香港中文大学multimedia laboratory又发布了两个相关数据集CelebAMask-HQ and CelebA-Spoof

下载CelebA数据集:https://www.graviti.cn/open-datasets/dataset-detail/CelebA

8、IMDB-WIKI数据集

发布方:computer vision lab, ETH zurish

发布时间:2015年

数据集大小:276.23GB

IMDB-WIKI人脸数据集由IMDB数据库和Wikipedia数据库组成,其中IMDB人脸数据库包含了460,723张人脸图片,而Wikipedia人脸数据库包含了62,328张人脸数据库,总共523,051张人脸数据库,IMDB-WIKI人脸数据库中的每张图片都被标注了人的年龄和性别,对于年龄识别和性别识别的研究有着重要的意义。

下载IMDB-WIKI数据集:https://www.graviti.cn/open-datasets/dataset-detail/IMDB-WIKI

分享到:
Start Building AI Now