机器学习基础知识

    技术2023-10-30  105

    一、机器学习基础

    机器学习就是把无序的数据转换成有用的信息。

    特征:事物的属性,通常是训练集的列,经过独立测量得到的结果。如鸟的体重、翼展等被称为鸟的特征(属性)。

    特征的类型可以是数值型、二值型、枚举型等。

    训练样本:包含多个特征列,以及目标变量(预测结果)。

    训练集:多个训练样本的集合。

    机器学习的主要任务:

    (1)分类:输入大量已分类数据作为算法训练的训练集,来学习如何分类。 (2)回归:主要用于预测数值型数据。 (3)分类和回归都属于监督学习。

    监督学习:输入的数据有类别信息、目标值,明确需要预测的数据。

    无监督学习:输入的数据没有类别信息和目标值。

    (1)聚类:将数据集合分成由类似的对象组成的多个类的过程。 (2)密度估计:寻找描述数据统计值的过程。

    开发机器学习应用程序的步骤:

    (1)收集数据:通过网络爬虫、RSS反馈、设备实测数据等 (2)准备输入数据:确保数据格式符合要求,即格式化数据 (3)分析输入数据:确保数据集中没有垃圾数据 (4)训练算法:输入训练集数据,从中抽取信息。(无监督学习无此步骤) (5)测试算法:测试算法工作的效果 (6)使用算法:将算法转换为应用程序,执行实际任务

    安装numpy库

    (1)打开cmd命令窗口,进入python安装目录的Scripts文件夹 (2)执行安装命令 pip install numpy

    (3)验证是否安装成功

    (4)同步本地库到PyCharm

    numpy函数库基础

    (1) eye(m,n)函数:产生一个m×n的单位矩阵 (2)random.rand(m,n)函数:产生一个m×n的随机数组 (3)mat(array)函数:将数组转化为矩阵 (4).I 操作符:求矩阵的逆矩阵

    >>> eye(2,2) array([[1., 0.], [0., 1.]]) >>> random.rand(2,2) array([[0.73882307, 0.51692701], [0.44567972, 0.61402099]]) >>> arr = random.rand(2,2) >>> arr array([[0.66445463, 0.19188144], [0.48243268, 0.05910379]]) >>> mat1 = mat(arr) >>> mat1 matrix([[0.66445463, 0.19188144], [0.48243268, 0.05910379]]) >>> mat2 = mat1.I >>> mat2 matrix([[ -1.10892899, 3.60015622], [ 9.05159474, -12.4667634 ]]) >>> res = mat1*mat2 >>> res matrix([[ 1.00000000e+00, -2.20921341e-16], [ 8.14201276e-17, 1.00000000e+00]])

    ​ 【注】eye(2,2)可简写成eye(2),rand( )同理

    监督学习和非监督学习的用途

    监督学习非监督学习k-近邻算法k-均值朴素贝叶斯算法DBSCAN支持向量机最大期望算法决策树Parzen窗设计线性回归局部加权回归Ridge回归Lasso最小回归系数估计

    Processed: 0.018, SQL: 9