机器学习(4)——手写识别系统实例

    技术2024-10-07  56

    基本概念

    利用K-近邻算法对0-9的32*32的黑白数字图像进行归类。

    基本思路步骤

    收集数据:提供文本文件; 准备数据:编写图像格式转化为可供分类器使用的向量格式的函数代码; 分析数据:进行检查数据,确保符合要求; 训练算法:此步骤不适用与K-近邻算法; 测试算法:编写函数使用提供的部分数据集作为测试样本,进行测试; 使用算法:产生简单的程序,从图像中提取数字,进行数字识别。

    将图像转化为测试向量 将如图所示3232的二进制图像矩阵转换为11024的向量。 首先编写图像转换向量代码: 进行验证: 加载数据集并进行预测 编写数字识别系统的测试代码 测试结果: 进行测试得出,近200个样本,使用K-近邻算法识别手写数据集错误率为1.1%。 K-近邻算法总结

    K-近邻算法是分类数据最简单有效的算法,但通过两个实例的得出,使用K-近邻 算法使用时必须有接近实际数据的训练样本数据,如果训练数据集很大,还必须使用 大量存储空间,此外由于必须对数据集中的每个数据计算距离值,实际使用时非常耗 时。 在K-近邻算法的使用中,另一个缺陷是他无法给出任何数据的基础结构信息, 因此我们也无法知晓平均实例样本和典型实例样本具有什么特征。 期待后续算法可以优化或者解决这些问题。
    Processed: 0.010, SQL: 9