WhiteDLG's

Self-Improving Pretraining:
使用后训练模型预训练更好的模型

2026-03-25 Paper Reading / RL 156 Views

📄 论文

论文名:Self-Improving Pretraining: using post-trained models to pretrain better models
来源:META (FAIR at Meta)

🤔 思考

终究是使用另一个强的模型来做判别,怎么保证强的模型不会把自己的偏见教给弱一点的模型?怎么保证这个强的模型是公正无私的?

⚙️ 训练流程详解

这个流程可以概括为:利用一个已经训练好的、能力强大的“教师模型”来指导和优化一个新模型(“学生模型”)的预训练过程。整个流程是动态的、自我改进的。

  1. 数据流式处理与任务重塑
    • 将预训练数据流分成连续的块。每个块(称为“后缀”)的目标是在给定其前面所有上下文(称为“前缀”)的情况下,生成一个高质量、安全的后续文本。
    • 这与传统下一个词预测不同,它直接学习生成一个完整的、有意义的序列(长度为 K 个 token)。
  2. 三个候选生成源
    • 对于每一个“前缀”,系统会产生三种可能的“后缀”候选,供后续评判:
    • 原始后缀:来自预训练数据集的原始文本块。
    • 重写后缀:由强大的“教师模型”对原始后缀进行改写,以提升其质量、安全性或事实性。
    • 模型自生成:当前正在训练的“学生模型”(即策略模型)自己生成的 K 个 token 序列(称为“rollout”)。
  3. 评判机制
    • 强大的“教师模型”扮演评判者的角色。它会根据质量、安全性、事实性等不同维度,对上述三个候选生成内容进行打分和比较。
  4. 强化学习训练
    • 训练目标:策略模型(学生)的目标是生成能得到评判者高分的后缀。
    • 动态学习过程
      • 训练初期:学生模型能力很弱,其自身的“模型自生成”质量很差,得分很低。此时,训练主要依赖于高质量的“重写后缀”和部分“原始后缀”作为学习目标,引导学生朝着正确的方向生成。
      • 训练中后期:随着学生模型能力提升,它开始能生成一些高质量的序列。这时,评判者会给这些高质量的“模型自生成”高分,并通过强化学习算法奖励它们。这促使学生模型更倾向于学习自己生成的那些优秀例子,从而实现自我改进。
💡 核心洞察:该方法通过“教师模型”作为动态评判器,在预训练阶段就注入质量、安全性和事实性信号,避免了传统“先预训后微调”难以根除核心缺陷的问题。至于教师偏见的担忧,论文中通过多维度提示、合成数据过滤以及强化学习中的多样化候选(原始/重写/自生成)在一定程度上缓解,但仍是未来值得探索的方向。
  Tags: Self-Improving Pretraining, Reinforcement Learning, LLM, META, AI Safety
Comments Section (基于Giscus,欢迎讨论教师偏见与自改进预训练)