Self-Improving Pretraining 论文解读

📄 论文

论文名：Self-Improving Pretraining: using post-trained models to pretrain better models
来源：META (FAIR at Meta)

🤔 思考

终究是使用另一个强的模型来做判别，怎么保证强的模型不会把自己的偏见教给弱一点的模型？怎么保证这个强的模型是公正无私的？

⚙️ 训练流程详解

这个流程可以概括为：利用一个已经训练好的、能力强大的“教师模型”来指导和优化一个新模型（“学生模型”）的预训练过程。整个流程是动态的、自我改进的。

数据流式处理与任务重塑：
- 将预训练数据流分成连续的块。每个块（称为“后缀”）的目标是在给定其前面所有上下文（称为“前缀”）的情况下，生成一个高质量、安全的后续文本。
- 这与传统下一个词预测不同，它直接学习生成一个完整的、有意义的序列（长度为 K 个 token）。
三个候选生成源：
- 对于每一个“前缀”，系统会产生三种可能的“后缀”候选，供后续评判：
- 原始后缀：来自预训练数据集的原始文本块。
- 重写后缀：由强大的“教师模型”对原始后缀进行改写，以提升其质量、安全性或事实性。
- 模型自生成：当前正在训练的“学生模型”（即策略模型）自己生成的 K 个 token 序列（称为“rollout”）。
评判机制：
- 强大的“教师模型”扮演评判者的角色。它会根据质量、安全性、事实性等不同维度，对上述三个候选生成内容进行打分和比较。
强化学习训练：
- 训练目标：策略模型（学生）的目标是生成能得到评判者高分的后缀。
- 动态学习过程：
  - 训练初期：学生模型能力很弱，其自身的“模型自生成”质量很差，得分很低。此时，训练主要依赖于高质量的“重写后缀”和部分“原始后缀”作为学习目标，引导学生朝着正确的方向生成。
  - 训练中后期：随着学生模型能力提升，它开始能生成一些高质量的序列。这时，评判者会给这些高质量的“模型自生成”高分，并通过强化学习算法奖励它们。这促使学生模型更倾向于学习自己生成的那些优秀例子，从而实现自我改进。

💡 核心洞察：该方法通过“教师模型”作为动态评判器，在预训练阶段就注入质量、安全性和事实性信号，避免了传统“先预训后微调”难以根除核心缺陷的问题。至于教师偏见的担忧，论文中通过多维度提示、合成数据过滤以及强化学习中的多样化候选（原始/重写/自生成）在一定程度上缓解，但仍是未来值得探索的方向。

Tags: Self-Improving Pretraining, Reinforcement Learning, LLM, META, AI Safety