目录
逻辑斯蒂回归
原理过程
预测函数
原理代码实现
例子
最大似然估计
原理
逻辑斯蒂回归概率计算
导包
手动计算
多分类概率计算
利用Logistics回归进行分类的主要思想是:根据现有数据对分类边界建立回归公式(f(x1,x2....))=w1x1+w2x2+.......),以此分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。
Logistic Regression和Linear Regression的原理(函数:二乘法(y-wx)^2,最小)是相似的,可以简单的描述这样的过程。
概率满足一定条件后,就将类别化为某某类。
'''假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?'''
1.请问罐子中白球的比例是多少?很多种可能10%,5%,95%……
2.请问罐子中白球的比例最有可能是多少?70%,进行精确计算,‘感觉’。
𝑓(𝑝)=𝑝70∗(1−𝑝)30 函数值大于0,该函数有最大值,x在导数为零的时候。求导
一种重要而普遍的求估计量的方法。最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。
y是目标值,二分类问题,y要么等于1,要么等于0。 越大越好,-越小越好。
对函数进行求导(𝐽(𝜃)=−𝑙(𝜃))
𝑙(𝜃)越大越好,梯度上升优化l(θ)越大越好,梯度上升优化,𝐽(𝜃)=−𝑙(𝜃)越小越好,梯度下降了。
加载划分数据
X,y = datasets.load_iris(True) #将三分类问题变为二分类问题 属性还是4个 类别变成两个 cond = y!=2 X = X[cond] y = y[cond] from sklearn.model_selection import train_test_split result = train_test_split(X,y,test_size = 0.2) result # X_test = result[1] proba_ = lr.predict_proba(result[1]) proba_ lr = LogisticRegression() lr.fit(result[0],result[2]) w = lr.coef_#斜率 属性有几个 w就有几个 b = lr.intercept_ print(w,b) result[1].dot(w[0])