列举几个人工智能方面的公共数据集,希望对大家有所帮助。
01 MNIST
网址:
http://yann.lecun.com/exdb/mnist
扫码直接进入:
MNIST数据集来自美国国家标准与技术研究所(National Institute of Standards and Technology,NIST),训练集(training set)由来自250个不同人手写的数字构成,其中50%是高中学生,50%来自人口普查局(the Census Bureau)的工作人员。
MNIST是一个初级的人工智能学习的数据集,很多人工智能学习课程都包含了在这个数据集之上的数字识别示例,里面包含60000个训练样本(图像和标签)和10000个测试样本。你可以用该数据集训练及测试你所构建的神经网络。
训练集目前由Yann LeCun维护。
02 Fashion-MNIST
网址:
https://github.com/zalandoresearch/fashion-mnist
扫码直接进入:
Fasion-MNIST是一个类似MNIST的训练和测试数据集,它由德国一家时尚科技公司(Zalando)提供,包含了70000张10个类别的服装相关的图片,如T恤、外套、鞋子等。其中包含60000张训练图片和标签以及10000张测试图片和标签。
它的数据格式和操作方式和MNIST相同。
Fashion-MNIST是一个可以替代MNIST的数据集。MINST数据集较为简单,很多简单的识别程序就可以做到准确率99%以上。Fashion-MNIST数据集的对象内容更为复杂,在识别难度上较MNIST更大。Fashion-MNIST也是一个常用于深度学习教学的数据集,同MNIST一样,在有些深度学习框架(如Tensorflow)中集成了数据集的导入。
03 CIFAR-10,CIFAR-100
网址:
http://www.cs.toronto.edu/~kriz/cifar.html
扫码直接进入:
CIFAR-10是由Hinton的学生Alex Krizhevsky和Ilya Sutskever整理的一个用于普适物体识别的数据集。一共包含了10个类别的RGB彩色图片,如飞机、汽车、鸟类、猫、狗等。每个图片的尺寸为32 × 32 ,每个类别有6000个图像,数据集中一共有50000张训练图片和10000 张测试图片。
CIFAR-10也是一个初级的人工智能学习的数据集,很多人工智能学习教程都包含在这个数据集上的图像识别示例。
CIFAR-100是类似CIFAR-10的一个数据集,其中包含了100个类别的图像,每个类别包含600张图片,其中500张为训练图片,100张为测试图片。整个数据集包含60000张图片,其中包含50000张训练图片和10000张测试图片。
04 ImageNet
网址:
http://www.image-net.org
扫码直接进入:
ImageNet图像数据集是在2009年由斯坦福的李飞飞主导的一个项目形成的一个数据集。李飞飞在CVPR2009上发表了一篇名为《ImageNet : A Large-Scale Hierarchical Image Database》的论文,之后从2010年开始每年举行基于ImageNet数据集的ILSVRC大赛,极大地推动了深度学习和计算机视觉的发展。
ImageNet总共有14197122张图像,分为21841个类别。
ILSVRC历年的知名网络有:
2012年AlexNet误检率16.42%2013年ZFNet13.51%2014年GoogLeNet6.67%2014年VGG6.8%2015年ResNet3.57%2016年ResNeXt3.03%2017年SENet2.25%