CIFAR-10数据集的官网CIFAR,该数据集包含60000张32323的图片,包含10类常见物体。其中训练集50000张,测试集10000张。由于数据集规模比较适中,很适合初学者练习用。在训练模型的时候,常常会从训练集中抽出一小部分图片作为验证集以便于分析训练过程,防止出现过拟合的情况。官网还包含CIFAR-1OO数据集,有兴趣的可以直接看官网介绍,这里不多赘述。
关于数据下载,官网提供了3种版本:python版本、Matlab版本和二进制版本(适用于C语言),这里下载的是python版本和二进制版本都可以。
看书上和网上有些是使用cifar10_input.py,读取的是二进制数据。我也从网上改写了一个读取python版本的数据,但是没有使用多线程和数据增强。
cifar10_input.py 文件有两处修改,应该是TensorFlow版本不同,更换了包的路径。源代码没有删掉,知识注释了
# Copyright 2015 Google Inc. All Rights Reserved. # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. # You may obtain a copy of the License at # # http://www.apache.org/licenses