有监督学习
回归问题:
假设我们拥有某地区房价和房屋面积的数据集: 绘制数据点如下图:
回归问题的主要目标便是通过已知的房价和房屋面积数据让机器从中发现线性规律(房屋面积到房价的函数h),并预测当房屋面积为x(i)时的房价,其中需要训练机器发现规律的训练集(Training set)和学习算法(Learning algorithm),流程如下:
根据机器拟合(学习)已有数据的强度不同可能会得到不同的预测结果: 根据不同的学习结果,机器对于未来的数据预测可能会出现不同结果--------(一次函数)房屋面积与房价正相关,(二次函数)房价会一定程度上随房屋面积增加而增加,但超过一定值时房价与房屋面积负相关。
但是现实生活中的问题往往更加复杂,人们通常不会用单一指标去衡量一个问题。例如,在上述问题中人们还会考虑房子的建成年代,房价数量和楼层等因素,下面我们看一个略丰富的数据集: 在进行监督学习前需要我们对数据提出一个假设/预测函数模型------x1代表房屋面积,x2代表房屋的卧室数量:这里需要注意对于一个问题引入的变量并不是越多越好,可能会造成维度灾难(Curse of Dimensionality),往往需要借助支持向量机和一些主成分分析方法解决。
机器学习的主要任务是确定函数中的参数,此时需要引入损耗函数(Cost function): 可以看到J函数代表预测值与真实值之间的差距,而预测函数参数的确定便是来自于最小化J [ min(J) ]的过程,θ的计算: 将J(θ)带入可以导出公式(单一样本情况下):分类问题:
(其中x代表恶性肿瘤,o表示非恶性肿瘤。)
学习的目标在于,当下一次输入肿瘤的大小时,机器可以判断出其为恶性或者良性。
无监督学习:
K-Mean算法