一、BDD100K数据集 :大型多样化驾驶视频数据集
发布方:加州大学伯克利分校AI实验室(BAIR)
发布时间:2018年5月30日
无人驾驶有望改变每个人的生活。然而,最近的一系列无人驾驶事故表明,人类还不清楚一个人造驾驶感知系统如何才能避免一些看起来明显的错误。
加州大学伯克利分校AI研究所(BAIR)致力于探索最前沿的自动驾驶感知算法,使无人驾驶技术更具安全性。为了设计和测试潜在的算法,BAIR希望利用真实驾驶平台收集的数据信息。这些数据需要具备四个主要特征:大规模、多样、基于真实街景以及带有时间信息。其中,数据多样性对于测试感知算法的鲁棒性尤为重要,然而目前的公开数据集只拥有上述一部分特征。为此,BAIR推出BDD100K数据集,该数据集是迄今为止用于计算机视觉研究最大、最多样的开放驾驶视频数据集。

BDD100K(Berkeley DeepDrive 100K)由100,000个高清视频序列组成,涵盖一天中许多不同时间、天气条件和驾驶场景下超过1,100小时的驾驶记录,每个视频大约40秒长,清晰度为720p,帧率为30fps。视频序列中还包含GPS位置信息、IMU数据和时间戳。
数据集大小:57.45GB
获取地址:https://www.graviti.cn/dataset-detail/BDD100K
二、KITTI数据集:大型自动驾驶领域数据集
发布方:德国卡尔斯鲁厄理工学院(KIT)、丰田工业大学芝加哥分校(TTIC)
发布日期:2011年
2011年,Andreas Geiger(KIT)、Philip Lenz(KIT)、Raquel Urtasun(TTIC)三位年轻人发现:阻碍视觉感知系统在自动驾驶领域应用的主要原因之一是缺乏合适的基准,而现有的数据集无论是在数据量,还是采集环境上都与实际需求相差甚远。于是他们利用自己的自动驾驶平台,建立起庞大的基于真实场景下的数据集,以此推动计算机视觉和机器人算法在自动驾驶领域的发展。这便是KITTI数据集的诞生背景。

数据集组成:
- 立体图像和光流图:389对
- 视觉测距序列:39.2公里
- 3D标注物体的图像组成:超过200k
- 采样频率:10Hz
3D物体检测类别:汽车、货车、卡车、行人、行人(坐着)、自行车、电车、杂项
包含场景:市区、乡村和高速公路
1)KITTI-raw
展现了KITTI数据集的典型样本,包含类别:城市、住宅、道路、校园、人
数据集大小:442.3GB
获取地址:https://www.graviti.cn/dataset-detail/KITTIRaw
2)KITTI-object
包括2D,3D和鸟瞰视角3种方式的基准,由7481张训练图像和7518张测试图像组成,共有80.256个带标签的对象,可用于进行目标检测任务。
数据集大小:118.18GB
获取地址:https://www.graviti.cn/dataset-detail/KITTIObject
3) KITTI-tracking
由21个训练序列和29个测试序列组成,主要用于验证无人驾驶中有关目标跟踪的算法。
数据集大小:63.12GB
获取地址:https://www.graviti.cn/dataset-detail/KITTITracking
4) KITTI-depth
包含超过93,000张深度图以及相应的原始激光雷达扫描和RGB图像,主要用于视觉深度评估任务。
数据集大小:19.95GB
获取地址:https://www.graviti.cn/dataset-detail/KITTIDepth
5) KITTI-semantics
由200张带有语义分割标注的训练图像和200张对应于立体声2015和flow2015的测试图像组成,可用于进行语义分割实例分割任务
数据集大小:312.69MB
获取地址:https://www.graviti.cn/dataset-detail/KITTISemantics
6) KITTI-road
包括289个训练图像和290个测试图像,用于进行道路分割任务
数据集大小:2.18GB
获取地址:https://www.graviti.cn/dataset-detail/KITTIRoad
7) KITTI-odometry
视觉里程计,由22个立体声序列组成,其中,11个序列(00-10)带有真值,可用于训练;11个序列(11-21)没有真值,可用于评估。该数据集主要用于进行视觉测程算法,根据帧与帧之间的图片的不同,推算出车的行驶距离以及行驶轨迹等数据。
数据集大小:164.79GB
获取地址:https://www.graviti.cn/open-datasets/dataset-detail/KITTI-odometry
8) KITTI-stereo 2015/flow 2015/scene flow
由200个训练场景和200个测试场景构成,每个场景的图片都有四种颜色,以png格式保存。
- Stereo
主要利用双目摄像头采集的信息,得出图像的立体视觉和三维重建
数据集大小:18.12GB
获取地址:https://www.graviti.cn/dataset-detail/KITTIStereo2015
- Flow
通过检测图像像素点的强度随时间的变化,推断出物体移动速度及方向
数据集大小: 18.12GB
获取地址:https://www.graviti.cn/dataset-detail/KITTIFlow2015
- Sceneflow
在流动的基础上,增加第三维信息
数据集大小:18.12GB
获取地址: https://www.graviti.cn/dataset-detail/KITTISceneflow
三、Waymo数据集:目前最大、最为多样化的无人驾驶数据集之一
发布方:Waymo
发布日期:2019年7月
Waymo数据集目前共包含1,950个无人驾驶片段,每一片段包含20秒的连续驾驶画面。连续镜头内容可以帮助研究人员开发模型来跟踪和预测其他道路使用者的行为。

数据集组成:
- 1,950个无人驾驶片段,每段20秒,以10Hz(200,000帧)的频率在不同的地理位置和条件下收集
传感器数据
- 1台中程激光雷达
- 4台短程激光雷达(前、后、左、右)
- 5个摄像头(正、侧)
- 同步激光雷达和摄像机数据
- 激光雷达到摄像机投影
- 传感器校准、车辆姿态
4个对象类别的标签数据标签:车辆、行人、骑自行车者、标志
- 1,200段激光雷达数据的高质量标签
- 激光雷达数据上带有跟踪标识的3D边界框标签(1260万)
- 1,000个片段的高质量相机数据标签
- 2D边界框标签(1180万),相机数据上带有跟踪标识
数据集特征:
1)规模和覆盖范围
Waymo数据集共包含1950多个自动驾驶片段,每一片段包含20秒的连续驾驶画面。连续镜头内容可以帮助研究人员开发模型来跟踪和预测其他道路使用者的行为。
2)多样化的驾驶环境
数据采集的范围涵盖美国加州的凤凰城、柯克兰、山景城、旧金山等地区的市中心和郊区。同时涉及各种驾驶条件下的数据,包括白天、黑夜、黎明、黄昏;雨天、晴天。

3)高分别率传感器和相机数据
数据集包含来自激光雷达的数据和来自相机的数据。其中,激光雷达数据包含一个中距离激光雷达(顶部)和四个短距离激光雷达(前、后、左、右)。外在校准矩阵将激光雷达框架转换为车辆框架。中距离激光雷达具有不均匀的倾斜光束角度模式。一维张量可用于获得每个光束的精确倾斜度。每个激光雷达的点云被编码为距离图像。每个激光雷达提供两个距离图像,两个最强返回率分别提供一个。
4)密集的标注数据
数据集包含独立生成的激光雷达和相机数据标注,而不仅仅是投影。其中1200多段的激光雷达数据中做了高质量的3D标注,共标记了1260万个3D边界框标注,标注了车辆、行人、骑自行车的人和标识。其中1000多段的图像数据中做了2D标注,共标记了1180万个2D边界框。
数据集大小:1.82TB
获取地址:https://www.graviti.cn/dataset-detail/Waymo
四、CityScapes数据集:专注于对城市街景的语义理解
发布方:奔驰自动驾驶实验室、马克思·普朗克研究所(Max Planck Institute)、达姆施塔特工业大学(Technische Universität Darmstadt)
发布时间:2016 年

CityScapes数据集包含50个城市不同场景、不同背景、不同街景,以及30类涵盖地面、建筑、交通标志、自然、天空、人和车辆等的物体标注,共有5000张精细标注的图像和2万张粗略标注的图像。均采用PASCAL VOC标准得分评价算法性能。
数据集特征:
1)多边形标注
- 密集语义分割
- 车辆和人员的实例分割
2)复杂性
- 30个物体类别
3)多样性
- 50个城市
- 时间跨度:数月(春天、夏天、秋天)
- 白天
- 良好/中等天气条件
4)手动选择的框架大量动态对象
- 变化的场景布局
- 变化的背景
5)数据卷
- 5,000张精细标注的图像
- 20,000张粗略标注的图像
6)元数据
- 前后视频帧。每个带标注的图像都是30帧视频片段(1.8秒)中的第20张图像
- 对应的右立体视图
- GPS坐标
- 来自车辆里程计的自我运动数据
- 来自车辆传感器的外部温度
7)其他研究人员所作扩展
- 人的边界框标注
- 雾天/雨天增强图像
8)基准集和评估服务器
- 像素级语义标注
- 实例级语义标注
- 全景语义标注
数据集大小:74.15GB
获取地址: https://www.graviti.cn/open-datasets/dataset-detail/CityScapes
五、TLR (Traffic Lights Recognition) 数据集 :交通信号灯视频数据集
发布方:法国La Route Automatisée机构
发布时间:2013年

数据集组成:
城市场景中交通信号灯识别的公开数据库、真值和基准(Public Databases, Ground truths and Benchmarks for Traffic Lights Recognition,TLR),手工标注真值(9168个交通灯实例)。
数据集规格:
- 视频细节:11,179帧(8分49秒,25帧/秒)
- 分辨率:640×480(RGB,8位)
数据集大小: 1.54GB
获取地址:https://www.graviti.cn/open-datasets/dataset-detail/TLR
六、Bosch Small Traffic Lights:交通信号灯图像数据集
发布方:Bosch(博世)
发布时间:2017年

Bosch Small Traffic Lights数据集包含13427张分辨率为1280x720像素的图像、约24000个带标注的交通信号灯。
标注包括交通信号灯的边界框以及每个交通信号灯的当前状态(活动灯)。相机图像是以原始的12位HDR图像和重建的8位RGB彩色图像的形式提供的,原始图像是用红色-无色-无色-蓝色滤镜拍摄的。
RGB图像可用于调试以排除故障,也可用于训练。然而,RGB转换过程有一些缺点:一些转换后的图像可能包含伪像,颜色分布可能看起来不寻常。
数据集规格:
训练集:
- 5,093张图像
- 大约每2秒钟标注一次
- 10,756个带标注的交通灯
- 交通灯宽度中位数:8.6像素
- 15种不同的标签
- 170盏部分受遮挡的灯
测试集:
- 8,334张连续图像
- 标注速度:约15帧/秒
- 13,486盏带标注的交通信号灯
- 交通灯宽度中位数: 8.5像素
- 4种标签
- 2088盏部分受遮挡的灯
数据集大小:25.24GB
获取地址:https://www.graviti.cn/dataset-detail/BoschSmallTrafficLights
七、nuScenes:大型无人驾驶数据集
发布方:无人驾驶技术公司Motional
发布时间:2019年
标注方:Scale

数据集特征:
nuScenes数据集能够使研究人员能够使用真正的自动驾驶汽车的完整传感器套件来研究不断变化的城市驾驶情况。
- 全传感器套件(1个激光雷达、5个雷达、6个摄像头、惯性测量单元、全球定位系统)
- 1000个场景,每个场景20秒
- 1,400,000张相机图像
- 390,000次激光雷达扫描
- 两个不同的城市:波士顿和新加坡
- 道路通行方向:车辆靠道路左侧行驶/靠道路右侧行驶
- 详细的地图信息
- 为23个对象类手动标注的1,400万个3D标注框
- 属性包含能见度、活动和姿势等
数据集大小: 547.98GB
获取地址:https://www.graviti.cn/open-datasets/dataset-detail/nuScenes
八、Urban Object Detection:用于对实时目标检测器的准确性进行基准测试
发布方:机器人和立体视觉小组(The Robotics and Tridimensional Vision Group, RoViT)
发布时间:2018年

Urban Object Detection数据集中的部分数据是通过安装在车辆上的高清摄像头所收集,其中有一些数据为弱标注数据,可以用于测试弱监督学习技术。目前已经有许多城市对象数据集,但未曾有一个包含所有基本城市目标的数据集。为此,机器人和立体视觉小组进行了大量实验来证明基线方法的有效性,并且提出了一种R-CNN加跟踪技术来加速实时城市目标检测的过程。
数据集大小:22.44GB
获取地址: https://www.graviti.cn/dataset-detail/UrbanObjectDetection