WhiteDLG's

交叉熵损失的定义与数学公式

2025-05-20 Loss Function

交叉熵损失的定义与数学公式

交叉熵损失(Cross-Entropy Loss)常用于衡量两个概率分布之间的差异,在语言模型中用于计算预测词分布与真实词分布之间的差距。对于单个时间步 $t$,假设真实词为 $y_t$(词表中的某个索引),模型输出的概率分布为 $\mathbf{p}_t = [p_{t,1}, p_{t,2}, \dots, p_{t,V}]$,其中 $V$ 是词表大小,$p_{t,i}$ 表示预测第 $i$ 个词的概率。交叉熵损失定义为:

$$ \ell_t = -\log p_{t,y_t} $$

即真实词对应概率的负对数。

对于整个序列(长度为 $T$),损失为所有时间步的平均或求和:

$$ \mathcal{L} = -\frac{1}{T} \sum_{t=1}^{T} \log p_{t,y_t} $$

或者求和形式:

$$ \mathcal{L} = -\sum_{t=1}^{T} \log p_{t,y_t} $$

在语言模型训练中,通常使用求和形式,但具体实现可能采用平均。该损失函数等价于最小化模型预测分布与真实分布(通常为 one-hot 分布)之间的交叉熵,从而鼓励模型对真实词赋予高概率。