【神经网络】感知机算法的收敛性证明

技术2022-07-13 104

感知机算法的收敛性

感知机学习算法是否收敛？

定理：假设给定m个输入样本（ ${X(k)\},(k=1,2,...,m)$ ）线性可分，那么感知机学习算法的权值就会在有限次的步骤中收敛到理想输出。

定性解释：

如果两类n维样本线性可分，那么一定存在一个n-1维的平面将其分开，n-1维超平面定义为：

$W(k)=[w_0(k),w_1(k),...w_n(k)]:W^TX(k)=0$

$\rarr w_0(k)+w_1(k)x_1(k)+...+w_n(k)x_n(k)=0$

这个超平面将 $X (k)$ 分为两类：

$W(k)^TX(k)>0\rarr y(k)=1\rarr X(k)\in C_1$

$W(k)^TX(k)<0\rarr y(k)=0\rarr X(k)\in C_0$

在训练过程中，感知机的权重不断地在被调整使得分类结果接近正确分类结果。

定量证明：

假设存在由理想的权值 $W^*$ 确定的理想超平面 $H^*$ ，可得到如下结果：

如果 $X(k)\in C_1$ ，那么 $X^T(k)W^*>0,y(k)=1$ ；

如果 $X(k)\in C_0$ ，那么 $X^T(k)W^*<0,y(k)=0$ 。

证明：学习算法是否能逼近 $W^*$

证明：假设 $W^*$ 是理想权值，那么任意 $\alpha>0$ ， $\alpha W^*$ 也是理想权值。因为有：

$X^T(k)\alpha W^*>0$ ，或者 $X^T(k)\alpha W^*<0$

理性权值不为1，找到一个，乘任一大于0的常数还是理想权值

所以，算法逼近 $\alpha W^*$ 也算逼近理想权值

证明：存在有限值N，使得 $\lVert W(N)-\alpha W^*\rVert^2\xrightarrow{N\uparrow}0$ 。

证明过程：

根据学习算法，在第k次迭代过程中，可以得到权值：

$W(k+1)=W(k)+\eta(d(k)-y(k))X(k)$

如果在第k次迭代， $X (k)$ 被正确分类，那么 $d (k) - y (k) = 0, W (k + 1) = W (k)$

如果在第k次迭代中，发生错误分类，那么：

情况1： $X(k)\in C_1$ ，但是 $X^T(k)W(k)<0$ ， $d (k) = 1, y (k) = 0$

情况2： $X(k)\in C_0$ ，但是 $X^T(k)W(k)>0$ ， $d (k) = 0, y (k) = 1$

如果能证明错误情况下，权重向纠正（减小）的方向发展，即收敛。

情况1证明：

在情况1下， $d (k) - y (k) = 1 - 0 = 1$ ， $W^TX(k)<0$ 根据算法：

$W(k+1)=W(k)+\eta(d(k)-y(k))X(k)=W(k)+\eta X(k)$

$\begin{aligned}\lVert W(k+1)-\alpha W^*\rVert^2&=[W(k+1)-\alpha W^*]^T[W(k+1)-\alpha W^*]\\&=[W(k)+\eta X(k)-\alpha W^*]^T[W(k)+\eta X(k)-\alpha W^*]\\&=\lVert W(k)-\alpha W^*\rVert^2+\eta^2\lVert X(k)\rVert^2+2\eta[W(k)-\alpha W^*]^TX(k)\end{aligned}$

分解最后一项，其中 $2\eta W^T(k)X(k)<0$ ，所以，上式小于把这个负项拿掉之后的剩余部分：

原式 $<\lVert W(k)-\alpha W^*\rVert^2+\eta^2\lVert X(k)\rVert^2-2\eta\alpha W^{*T}X(k)$

令 $max\{\lVert X(k)\rVert^2\}=\beta^2,min\{\lVert W^{*T}X(k)\rVert\}=\gamma$

则上式 $\leq\lVert W(k)-\alpha W^*\rVert^2+\eta^2\beta^2-2\eta\alpha\gamma$

其中 $\lVert W(k)-\alpha W^*\rVert^2$ 为第k次迭代误差， $\eta和\beta$ 都为常数， $\alpha$ 为任意大于0常数

假设 $\alpha=\frac{\eta\beta^2}{\gamma}(>0)$ ，带入上式得

上式 $=\lVert W(k)-\alpha W^*\rVert^2-\eta^2\beta^2$

即 $\lVert W(k+1)-\alpha W^*\rVert^2<\lVert W(k)-\alpha W^*\rVert^2-\eta^2\beta^2$ 即迭代后误差减小

验证： $k=0:\lVert W(1)-\alpha W^*\rVert^2<\lVert W(0)-\alpha W^*\rVert^2-\eta^2\beta^2$

$k=1:\lVert W(2)-\alpha W^*\rVert^2<\lVert W(1)-\alpha W^*\rVert^2-\eta^2\beta^2<\lVert W(0)-\alpha W^*\rVert^2-2\eta^2\beta^2$

$. . .$

$\lVert W(N)-\alpha W^*\rVert^2<\lVert W(0)-\alpha W^*\rVert^2-N\eta^2\beta^2$

因为不等式左侧为大于零的一个数，右侧为一个常数减去线性增大的数，最后结果只能趋近于零：

$\lVert W(N)-\alpha W^*\rVert^2<\lVert W(0)-\alpha W^*\rVert^2-N\eta^2\beta^2\rarr0$

$\therefore$ N满足 $N\leq\lVert W(0)-\alpha W^*\rVert^2/(\eta^2\beta^2)$

即N是有限的

情况2： $X(k)\in C_0$ ，但是 $X^T(k)W(k)>0$ ， $d (k) = 0, y (k) = 1$

在情况2下， $d (k) - y (k) = 0 - 1 = - 1$ ， $W^TX(k)>0$ 根据算法：

$W(k+1)=W(k)+\eta(d(k)-y(k))X(k)=W(k)-\eta X(k)$

$\begin{aligned}\lVert W(k+1)-\alpha W^*\rVert^2&=[W(k+1)-\alpha W^*]^T[W(k+1)-\alpha W^*]\\&=[W(k)-\eta X(k)-\alpha W^*]^T[W(k)-\eta X(k)-\alpha W^*]\\&=\lVert W(k)-\alpha W^*\rVert^2+\eta^2\lVert X(k)\rVert^2-2\eta[W(k)-\alpha W^*]^TX(k)\end{aligned}$

分解最后一项，其中 $2\eta W^T(k)X(k)>0$ ，所以，上式小于把这项拿掉之后的剩余部分，即

$\begin{aligned}\lVert W(k+1)-\alpha W^*\rVert^2&=\lVert W(k)-\alpha W^*\rVert^2+\eta^2\lVert X(k)\rVert^2-2\eta[W(k)-\alpha W^*]^TX(k)\\&<\lVert W(k)-\alpha W^*\rVert^2+\eta^2\lVert X(k)\rVert^2+2\eta\alpha W^{*T}X(k)\end{aligned}$

令 $max\{\lVert X(k)\rVert^2\}=\beta^2$

$\because X(k)\in C_0$

$\therefore W^{*T}X(k)<0,$ 令 $max\{\lVert W^{*T}X(k)\rVert\}=\gamma(\gamma<0)$

则 $\begin{aligned}\lVert W(k+1)-\alpha W^*\rVert^2&<\lVert W(k)-\alpha W^*\rVert^2+\eta^2\lVert X(k)\rVert^2+2\eta\alpha W^{*T}X(k)\\&\leq\lVert W(k)-\alpha W^*\rVert^2+\eta^2\beta^2+2\eta\alpha\gamma\end{aligned}$