吴恩达《机器学习》学习笔记一——初识机器学习

    技术2025-01-09  29

    吴恩达《机器学习》学习笔记一

    一、 什么是机器学习?二、监督学习三、无监督学习 初识机器学习 这是个人学习吴恩达《机器学习》课程的一些笔记,供自己和大家学习提升。第一篇内容较少,日后继续加油。

    课程链接:https://www.bilibili.com/video/BV164411b7dx?from=search&seid=5329376196520099118

    一、 什么是机器学习?

    机器学习一直没有一个官方固定的定义。但课中给出了两种解释,个人认为非常经典,易于理解。

    定义一:Field of study that gives computers the ability to learn without being explicitly programmed.—— Arthur Samuel(1959) 即无需明确编程,就使得计算机有学习能力的研究领域。

    值得一提的是,阿瑟.塞缪尔(Arthur Samuel)在此之前(1952年)研发出了第一个计算机跳棋程序,它是世界上第一个可以自主学习的程序。通过和该跳棋程序不断的下棋,使得该程序的跳棋技巧不断得到提升,最终甚至超过了人类水平,这是机器学习早期一个非常经典的案例。 定义二:A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 即计算机程序从经验E上学习来处理任务T,且P为性能评估,如果在T上,由P衡量的性能随着经验E的学习而提高,这就是机器学习。

    下面看一个课中给出的定义二的例子: 这是一个邮件分类问题,基于已知邮件是否为垃圾邮件的信息,来优化邮件分类系统。此处选项一:把邮件分类为垃圾或正常邮件是机器学习的T;选项二:观察你标记的邮件是垃圾还是正常是机器学习的E;选项三:正确分类邮件的数量是机器学习的P。

    此外,机器学习有其分类,主要分为如下三类:

    机器学习分类具体算法举例监督学习线性回归、SVM、决策树等无监督学习聚类、密度估计等其他:强化学习、推荐系统等-待学习-

    所以下面分别讨论了基本的监督学习和无监督学习。

    二、监督学习

    监督学习的特点是,学习数据都是有标注的。如经典的房价预测案例,它的数据集中数据样本不仅给出了各自的属性值,还给出了具体的房价大小,而这个房价大小就是所谓的标注,也就是需要预测的属性,模型从带有标注的数据中学习,随后对新的数据预测其标签值。如下图所示是房价预测的一个示例。 图中为简单起见,只考虑了房子的一个属性:面积(feet2),而实际还需要考虑很多其他属性如:朝向、地段等。红色的×表示已知的一批带有标注的数据,要从这些数据中学习得一种模型,使得后续预测的值比较真实,红色的直线是一次函数模型,蓝色的曲线是更复杂的模型,目标都是尽可能地模拟所有数据。模型选择的好坏,也会对预测有很大的影响(此处蓝色的模型看起来要比红色的好)。若已得到一个模型,则新给出一个输入如:房屋面积为750feet2,根据模型则可以得到预测房价为多少。

    此外,房价预测也是回归问题的一个实例,所谓回归,就是预测值是连续值,此处房价是一个连续值,所以是一个回归问题。 与此对应,若预测值是离散的,则被称为分类问题,如上述提到的邮件分类,预测值只有垃圾邮件和正常邮件两个值。如下图所示,是根据肿瘤尺寸这个属性来对乳腺肿瘤进行分类的数据,标签值只有0(良性)和1(恶性)两种。 而往往不止通过一个属性进行学习,还可能通过细胞尺寸均匀度、细胞形状均匀度、患者年龄等许多属性来进行学习。

    三、无监督学习

    无监督学习与监督学习相对,当学习数据不带有标签时,就可以看成是无监督学习,也可以理解为没有正确答案的学习。无监督学习在做的,更多的是找出数据之间的相似相关性。如下图所示,x1和x2是数据的两个属性,数据不带有标签,无监督学习会寻找数据之间的相似性,将无标注的数据划分为一个个的簇。

    Processed: 0.009, SQL: 9