机器学习图片素材哪里找—开放数据集下载集合
作者:graviti
发布于 4/20/2021

一、机器学习

机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。

由于数据类型多种多样,对问题的建模方式也是各不相同。在机器学习方面,也可以分为几个不同的学习方式。本文将介绍按照学习方式的不同进行分类的机器学习。

1.强化学习

在强化学习中,跟监督模型有所不同的是,在这种学习模式中,输入数据仅仅是作为一个检查模型对错的方式,输入数据直接反馈到模型,模型必须对此立刻作出调整。

2.监督式学习

在监督学习中,输入数据与强化学习中有所不同,在这种模式中输入数据被称为“训练数据”,每组数据都有明确的标识或者结果。监督式学习的常见应用场景如分类问题和回归问题。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。

3.非监督式学习

在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。

4.半监督式学习

在半监督式学习中,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。

各种学习方式由于特征不同,应用的领域也有所不同。监督式学习和非监督式学习的模型最常被使用在企业数据应用的场景下,在机器人控制或者其他需要进行控制的领域中,强化学习更多的被使用。由于可标识的数据比较少,半监督式学习在图像识别领域最常被使用。

在训练过程中,我们最常遇到的问题便是找不到足够多的数据集,或者是找不到合适的数据集来进行训练。国内开放的数据集网站较少,在此推荐一个免费高速下载公开数据集的网站Graviti。https://www.graviti.cn/

下面将为大家介绍一些常见的机器学习图片素材以及高速下载地址,再也不用担心没有足够的素材可以用啦!

二、常见机器学习图片素材及下载地址

1.数据集名称:Fashion-MNIST

数据集概述:Fashion-MNIST是Zalando文章图片的数据集,包括60,000个例子的训练集和10,000个例子的测试集。每个示例都是一个28x28灰度图像,与来自10个类的标签相关联。Fashion-MNIST作为原始MNIST数据集的直接替代品,用于对机器学习算法进行基准测试。

发布方:Zalando

发布时间:2020

数据格式:Image

数据集大小:35MB

高速下载地址:https://gas.graviti.cn/dataset/data-decorators/FashionMNIST

2.数据集名称:SVHN

数据集概述:SVHN是一个真实世界的图像数据集,用于开发机器学习和目标识别算法,对数据预处理和格式化有最低的要求。它在风格上与MNIST类似,但合并了一个数量级更多的标记数据(超过60万位数的图像),并来自一个明显更困难、未解决的现实世界问题(识别自然场景图像中的数字)。SVHN来自谷歌街景图像中的门牌号。

发布方:Stanford University

数据格式:Image

数据集大小:2GB

高速下载地址:https://gas.graviti.cn/dataset/data-decorators/SVHN

3.数据集名称:RarePlanes

数据集概述:RarePlanes是一个独特的开源机器学习数据集,它结合了真实和合成生成的卫星图像。RarePlanes数据集特别关注合成数据的价值,以帮助计算机视觉算法自动检测飞机及其卫星图像中的属性。尽管还存在其他合成/真实组合数据集,但RarePlanes是最大的可公开使用的超高分辨率数据集,旨在从间接费用角度测试合成数据的价值。

发布方:COSMIQ WORKS

数据格式:Image

数据集大小:316MB

高速下载地址:https://gas.graviti.cn/dataset/hello-dataset/RarePlanes

4.数据集名称:CompCars

数据集概述:CompCars数据集包含两个场景的数据,包括网络性质的图像和监视性质的图像。网络数据包含163家汽车制造商和1,716个车型。总共有136,726张图像捕捉整个汽车,27,618张图像捕捉汽车部件。完整的汽车图像被标记为边框和视点。每个汽车模型都有5个属性,包括最大速度、位移、门的数量、座位的数量和汽车类型。监控数据包含5万辆汽车的前视图图像。

发布方:Multimedia Laboratory

发布时间:2015

数据格式:Image

数据集大小:3GB

高速下载地址:https://gas.graviti.cn/dataset/data-decorators/CompCars

5.数据集名称:nuScenes

数据集概述:

nuScenes数据集是一个带有3d对象标注的大型自动驾驶数据集。它的特点:

●全传感器套件(1x激光雷达,5倍雷达,6倍摄像头,IMU, GPS)

●1000个20多张的场景

●140万摄像机图像,390,000个激光雷达扫描

●两个不同的城市:波士顿和新加坡(左对右交通)

●详细地图信息

●为23个对象类手动标注1.4M 3D边框

●属性,如可见性,活动和姿势

新增:1.1B激光雷达点手动注释32类

新功能:在sisearch上探索新生儿场景

●免费用于非商业用途

发布方:Motional

数据格式:Image、Point Cloud

数据集大小:577MB

高速下载地址:https://gas.graviti.cn/dataset/8pe88zp0/nuScenes

分享到:
Start Building AI Now