机器学习:常用数据集汇总

    技术2024-04-13  86

    前言

        对机器学习中一些常用数据集进行汇总,欢迎评论区提供数据。多多收藏、点赞

        注:其中有些链接是用的他人分享的数据,如果作者不希望这样使用,请私信告诉我,谢谢

     

    # pima-indians-diabetes #

        详情:美国国立糖尿病消化与肾病研究所搜集的皮马印第安部落中21岁以上女性的数据。

                   样本包括9个特征的768个观测值(768 × 9)。

        下载数据:https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/

     

    # 猫狗分类数据集 #

        详情:包括含训练集(25000张猫狗照片)和测试集(12500张猫狗照片)

        下载数据:https://pan.baidu.com/share/init?surl=vS2OsS9lPfkJO-GY3Ju3gw 提取码: vgsy

     

    # hotel_bookings #

        详情:该数据集包含城市酒店和度假酒店的预订信息,并包括诸如预订的时间,停留时间,成人,儿童和/或婴儿的数量以及可用停车位的数量等信息

        下载数据:https://pan.baidu.com/s/1WBMEtBzH3fFLtEnz0c-HDg  提取码:9i9e

     

    # 成都市出租车GPS记录数据 #

        详情:成都某一天出租车的部分数据。数据记录了成都市部分出租车在载客时的GPS位置和时间等信息

        下载数据:http://labfile.oss.aliyuncs.com/courses/736/taxi.csv

     

    # BelgiumTS #

        详情:62种交通信号图片

        下载数据:https://btsd.ethz.ch/shareddata/

     

    # Spambase #

        详情:垃圾邮件数据

        下载数据:http://archive.ics.uci.edu/ml/datasets/Spambase

    spambase.csv

     

    # 共享单车数据 #

        详情:美国某公司的共享单车数据

        下载数据:http://archive.ics.uci.edu/ml/machine-learning-databases/00275/

    day.csv

     

    # 葡萄酒数据集 #

        详情:包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分,可以来推断葡萄酒的起源。

        下载数据:http://archive.ics.uci.edu/ml/datasets/Wine

     

    # Gowalla #

        详情:Gowalla是一个基于位置的社交网站,用户可以通过签到来分享他们的位置

              数据分为两部分:

                         loc-gowalla_totalCheckins.txt 签到数据( 6,442,890 )的时间、地点、用户ID

                         loc-gowalla_edges.txt. Gowalla用户(196,591个用户)的社会关系

        下载数据:http://snap.stanford.edu/data/loc-gowalla.html

    loc-gowalla_totalCheckins.txt

     

    # MovieLens #

        详情:MovieLens数据集是一个关于电影评分的数据集,里面包含了从IMDB, The Movie DataBase上面得到的用户对电影的评分信息[链接]

        下载数据:https://grouplens.org/datasets/movielens/

    movies.csv 

     

    # wholesale-customers #

        详情:批发销售数据集

        下载数据:http://networkrepository.com/wholesale-customers.php

     

    # 国外数据汇总 #

        国外大神收集的100个大型机器学习数据集

        下载数据:https://www.datasetlist.com/

     

    其他

     

    详情

    训练样本

    测试样本

    图像大小

    MNIST

    手写数字数据集

    60000

    10000

    28*28

    GTSRB

    德国交通标志数据集

    39209

    12630

    15*15~250*250

    RRSI

    交通路网遥感图像数据集

    共30幅

     

    ImageNet

    超过1500万幅图像、约22000个类别数据集

     

     

     

    CIFAR-10

    常见物体图像数据集,10类

    50000

    10000

    32*32(彩色)

    Oxford-17

    鲜花图像数据集,共1360幅、17类

     

     

    不同

    AR

    人脸图像数据集

     

     

     

    VOC2007

    物体和场景的图像数据集

     

     

     

    SIFT Flow

    不同场景的图像数据集

    2488

    200

     

    ADE20K

    不同场景的图像数据集

    20210

    2000

     

    COCO2014

    微软制作的图像数据集

    82783

    40504+40504(验证集)

     

    CelebA

    名人人脸图像数据集

    162770

    19867

     

    Gamerecords

    围棋棋局文件数据集

    4491800

    100000

     

    Processed: 0.018, SQL: 9