Cross Entropy
Cross-entropy(交叉熵)
In information theory, the cross-entropy between two probability distributions
and , over the same underlying set of events, measures the average number of bits needed to identify an event drawn from the set when the coding scheme used for the set is optimized for an estimated probability distribution , rather than the true distribution .
—— Wikipedia - Cross-entropy
定义
交叉熵
其中
也可以通过 Kullback–Leibler 散度(KL散度)进行表达:
其中
当
若为 连续分布,假设
动机(Motivation)
在信息论中,Kraft–McMillan 定理 说明:对于一条消息的任意可解码编码方案,用来识别某个值
其中
因此,交叉熵可以被解释为:在我们错误地假设数据服从分布
这也解释了为什么期望是基于真实分布
与最大似然估计的关系(Maximum Likelihood)
在分类问题中,当我们将对样本预测概率取对数(即使用对数似然函数)来进行模型训练时,交叉熵就自然作为损失函数被引入。因为对数似然的优化目标正好与最小化交叉熵等价。
本节讨论的是对多个可能离散结果的概率进行估计的问题。我们用一个参数化的分布族
考虑一个训练集中包含
那么,在参数
如果某个值
这个频率是对真实分布的一种经验估计。
我们定义困惑度(Perplexity) 为:
可重写为:
因此,似然函数也可以等价为:
取对数得到:
由于对数函数是单调递增的,因此最大化对数似然等价于最小化交叉熵:
最大似然估计 ≡ 最小交叉熵
交叉熵最小化(Minimization)
KL 散度的定义(Kullback–Leibler divergence)
KL 散度(Kullback–Leibler divergence)衡量两个概率分布之间的“距离”(信息不对称),定义如下:
离散情形:
给定真实分布
连续情形:
此处:
:真实分布 :模型预测分布 可为自然对数(以 e 为底),或以 2 为底(单位为比特)
KL 散度与交叉熵的关系公式推导:
Step 1:定义交叉熵
Step 2:定义熵
Step 3:KL 散度展开
Step 4:得到关系公式
结论:
- 交叉熵 = 熵 + KL 散度
- 当
时,KL 散度为 0,此时交叉熵等于熵。 - 最小化交叉熵(cross entropy loss)也就意味着让
更接近 ,即最小化 KL 散度。
- Title: Cross Entropy
- Author: YYk
- Created at : 2025-05-09 09:56:43
- Updated at : 2025-05-29 00:02:16
- Link: https://yykwd.github.io/2025/05/09/Math/cross_entropy/
- License: This work is licensed under CC BY-NC-SA 4.0.