机器学习（4）——手写识别系统实例

技术2024-10-07 84

基本概念

利用K-近邻算法对0-9的32*32的黑白数字图像进行归类。

基本思路步骤

收集数据：提供文本文件；准备数据：编写图像格式转化为可供分类器使用的向量格式的函数代码；分析数据：进行检查数据，确保符合要求；训练算法：此步骤不适用与K-近邻算法；测试算法：编写函数使用提供的部分数据集作为测试样本，进行测试；使用算法：产生简单的程序，从图像中提取数字，进行数字识别。

将图像转化为测试向量将如图所示3232的二进制图像矩阵转换为11024的向量。首先编写图像转换向量代码：进行验证：加载数据集并进行预测编写数字识别系统的测试代码测试结果：进行测试得出，近200个样本，使用K-近邻算法识别手写数据集错误率为1.1%。 K-近邻算法总结

K-近邻算法是分类数据最简单有效的算法，但通过两个实例的得出，使用K-近邻算法使用时必须有接近实际数据的训练样本数据，如果训练数据集很大，还必须使用大量存储空间，此外由于必须对数据集中的每个数据计算距离值，实际使用时非常耗时。在K-近邻算法的使用中，另一个缺陷是他无法给出任何数据的基础结构信息，因此我们也无法知晓平均实例样本和典型实例样本具有什么特征。期待后续算法可以优化或者解决这些问题。

Processed: 0.019, SQL: 9