交叉熵损失的定义与数学公式

交叉熵损失（Cross-Entropy Loss）常用于衡量两个概率分布之间的差异，在语言模型中用于计算预测词分布与真实词分布之间的差距。对于单个时间步 $t$，假设真实词为 $y_t$（词表中的某个索引），模型输出的概率分布为 $\mathbf{p}_t = [p_{t,1}, p_{t,2}, \dots, p_{t,V}]$，其中 $V$ 是词表大小，$p_{t,i}$ 表示预测第 $i$ 个词的概率。交叉熵损失定义为：

\ell_t = -\log p_{t,y_t}

即真实词对应概率的负对数。

对于整个序列（长度为 $T$），损失为所有时间步的平均或求和：

\mathcal{L} = -\frac{1}{T} \sum_{t=1}^{T} \log p_{t,y_t}

或者求和形式：

\mathcal{L} = -\sum_{t=1}^{T} \log p_{t,y_t}

在语言模型训练中，通常使用求和形式，但具体实现可能采用平均。该损失函数等价于最小化模型预测分布与真实分布（通常为 one-hot 分布）之间的交叉熵，从而鼓励模型对真实词赋予高概率。