对机器学习中一些常用数据集进行汇总,欢迎评论区提供数据。多多收藏、点赞
注:其中有些链接是用的他人分享的数据,如果作者不希望这样使用,请私信告诉我,谢谢
详情:美国国立糖尿病消化与肾病研究所搜集的皮马印第安部落中21岁以上女性的数据。
样本包括9个特征的768个观测值(768 × 9)。
下载数据:https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/
详情:包括含训练集(25000张猫狗照片)和测试集(12500张猫狗照片)
下载数据:https://pan.baidu.com/share/init?surl=vS2OsS9lPfkJO-GY3Ju3gw 提取码: vgsy
详情:该数据集包含城市酒店和度假酒店的预订信息,并包括诸如预订的时间,停留时间,成人,儿童和/或婴儿的数量以及可用停车位的数量等信息
下载数据:https://pan.baidu.com/s/1WBMEtBzH3fFLtEnz0c-HDg 提取码:9i9e
详情:成都某一天出租车的部分数据。数据记录了成都市部分出租车在载客时的GPS位置和时间等信息
下载数据:http://labfile.oss.aliyuncs.com/courses/736/taxi.csv
详情:62种交通信号图片
下载数据:https://btsd.ethz.ch/shareddata/
详情:垃圾邮件数据
下载数据:http://archive.ics.uci.edu/ml/datasets/Spambase
spambase.csv
详情:美国某公司的共享单车数据
下载数据:http://archive.ics.uci.edu/ml/machine-learning-databases/00275/
day.csv
详情:包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分,可以来推断葡萄酒的起源。
下载数据:http://archive.ics.uci.edu/ml/datasets/Wine
详情:Gowalla是一个基于位置的社交网站,用户可以通过签到来分享他们的位置
数据分为两部分:
loc-gowalla_totalCheckins.txt 签到数据( 6,442,890 )的时间、地点、用户ID
loc-gowalla_edges.txt. Gowalla用户(196,591个用户)的社会关系
下载数据:http://snap.stanford.edu/data/loc-gowalla.html
loc-gowalla_totalCheckins.txt
详情:MovieLens数据集是一个关于电影评分的数据集,里面包含了从IMDB, The Movie DataBase上面得到的用户对电影的评分信息[链接]
下载数据:https://grouplens.org/datasets/movielens/
movies.csv
详情:批发销售数据集
下载数据:http://networkrepository.com/wholesale-customers.php
国外大神收集的100个大型机器学习数据集
下载数据:https://www.datasetlist.com/
详情
训练样本
测试样本
图像大小
MNIST
手写数字数据集
60000
10000
28*28
GTSRB
德国交通标志数据集
39209
12630
15*15~250*250
RRSI
交通路网遥感图像数据集
共30幅
ImageNet
超过1500万幅图像、约22000个类别数据集
CIFAR-10
常见物体图像数据集,10类
50000
10000
32*32(彩色)
Oxford-17
鲜花图像数据集,共1360幅、17类
不同
AR
人脸图像数据集
VOC2007
物体和场景的图像数据集
SIFT Flow
不同场景的图像数据集
2488
200
ADE20K
不同场景的图像数据集
20210
2000
COCO2014
微软制作的图像数据集
82783
40504+40504(验证集)
CelebA
名人人脸图像数据集
162770
19867
Gamerecords
围棋棋局文件数据集
4491800
100000