深度学习中的数学(四)——信息论

    技术2026-01-04  8

    文章目录

    前言一、信息论二、信息三、熵四、条件熵五、相对熵(KL距离/KL散度)六、交叉熵七、互信息

    前言

    先放祖师爷——克劳德·香农。 1948年,美国数学家克劳德·香农发表论文《通信的数学理论》(A Mathematical Theory of Communication),奠定了信息论的基础。

    一、信息论

    狭义信息论是在信息可以度量的基础上有效地和可靠地传递信息的科学,它涉及信息的度量、信息的特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。 广义信息论包括通信的全部统计问题的研究、香农信息论、信号设计、噪声理论、信号检测与估值等,还包括医学、生物学、心理学、遗传学、神经生理学、语言学甚至社会学和科学管理学中有关信息的问题。

    二、信息

    信息:不确定性。 信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西” 例子1:你晚上来我家。(信息量很大,信息还不确定) 例子2:32支球队,踢球猜冠军,首先你有1/32的概率猜对,信息量很大;当晋级一半后,你有1/16的概率猜对,信息量减少了;然后,你就有1/2的概率,信息量非常小;到最后,剩1支球队了,就没有信息了。

    三、熵

    理解:信息的期望就是熵(信息乘以它的概率) 熵表示混乱程度,熵越大越混乱,越有规律熵越小。这里博主提一下宇宙的奥秘:宇宙是熵增的过程。宇宙是由从有序到无序,从熵小到熵大的过程,从有序到无序的。宇宙发展的终极也是走向一片混乱的。(不相信的小伙伴可以想一下太阳,太阳也会在未来的一天消耗完全部能量,走向毁灭;火柴也是类似的过程)

    什么时候熵达到最大?——越均匀熵越大 当概率取值相同时,熵就达到了最大。连续分布的熵最大的分布是高斯分布。 推广:概率乘以一个函数,可以理解为求这个函数的期望

    数据取到最随机的情况下,熵是最大的。

    四、条件熵

    定义:条件熵 H(X|Y) 表示在已知随机变量Y的条件下,随机变量 X 的不确定性。 条件熵类似条件概率。

    五、相对熵(KL距离/KL散度)

    衡量两个分布(分布也是一种函数\公式)之间的距离。 定义:设 p(x)、q(x)是随机变量x上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:

    六、交叉熵

    定义:交叉熵主要用于度量两个概率分布间的差异性信息。 理解:相当于KL散度的一个变种,除法变减法,然后前面相当于信息熵,为一个常数,我们只计算后面的,就成为了交叉熵。(用交叉熵的一个条件就是后面的q(xi)必须是[0,1]之间的数或者是概率) 输出是概率,还可以用平方差公式来衡量。

    七、互信息

    互信息用来衡量两个自变量之间的关系。(判断独立性) 如果两个自变量互相独立,互信息为0;有关系的话互信息就大于0。

    衡量两个自变量之间的关系的几种方法: (1)余弦相似度,判断相关性 (2)事件独立性公式 (3)互信息(模型如InfoGAN) (4)协方差

    互信息与熵和条件熵的关系:

    Processed: 0.041, SQL: 9