JiT

论文标题: Back to Basics: Let Denoising Generative Models Denoise
作者: Tianhong Li (黎天鸿), Kaiming He (何恺明)
论文地址: https://arxiv.org/abs/2511.13720
代码仓库: https://github.com/LTH14/JiT

提出了一种名为 JiT (Just image Transformers) 的方法，倡导让模型回归初心，直接预测干净的图像（x-prediction）。令人惊讶的是，这种看似简单的回归，仅使用一个朴素的、无任何额外组件的 Transformer 架构，就在 ImageNet 等高难度任务上取得了极具竞争力的成果，甚至在某些情况下避免了传统方法的“灾难性失败”。

问题的核心：流形假设

核心论点建立于：

干净图像 ($x$)：位于这个低维流形上，结构性强。
噪声 ($\epsilon$)：完全是高维空间中的随机扰动，不遵循任何流形结构。
流速 ($v$)：作为图像和噪声的组合，同样是“越界”的，处于流形之外。

1. 什么是“流形”(Manifold)？

想象一张揉皱的纸团。虽然这个纸团存在于三维空间里，但纸张本身其实是一个二维平面。在机器学习中，“流形假设”认为：

高维空间： 比如一张 $512 \times 512$ 的彩色图像，它在数学上是一个拥有约 78 万个维度的点。
低维流形： 尽管维度极高，但“像人脸的图像”或“像猫的图像”只占这个巨大空间中极小极小的一部分。这些有意义的数据点分布在一个规则的、有结构的、低维度的“密封面”上，这个面就是流形。
“在流形上”： 意味着图像是自然的、有结构的、符合现实世界规律的（即图中的干净图像 $x$）。

2. 什么是“在流形外”(Off-manifold)？

“在流形外”指的就是那些不符合数据内在规律、随机分布在高维空间“空旷地带”的部分。

噪声 ($\epsilon$)： 纯噪声是完全随机的。它没有任何结构，不遵循任何物理或语义规律。它就像是离开了纸张表面的空气，散落在三维空间里的任何地方。因此，噪声是典型的“流形外”物体。
流速 ($v$)： 在流式匹配模型中，流速是指从噪声点向干净图像点移动的方向向量。因为它的一头连接着“流形外”的噪声，所以这个向量本身也处于流形之外，或者说它代表了一种“跨界”的路径。

参考图：

x 预测 vs. $\epsilon/v$ 预测：为何差异如此之大？

扩散模型的工作流程可以简化为：首先通过一个预设的 “加噪” 过程，将一张干净图像 $x_0$ 逐步变成纯噪声 $x_T$；然后训练一个神经网络，让它学会从任意时刻 $t$ 的含噪图像 $x_t$ 中，恢复出一些关键信息，从而实现 “去噪” 生成。

加噪过程通常表示为：

z_t = t \cdot x + (1 - t) \cdot \epsilon

其中，$z_t$ 是 $t$ 时刻的含噪图像，$x$ 是原始干净图像，$\epsilon$ 是标准正态分布的噪声，$t$ 从 0 到 1 变化。

模型的任务就是从 $z_t$ 预测出 $x$、$\epsilon$ 或流速 $v$（定义为 $v = x - \epsilon$）。虽然这三者在数学上可以相互转换，但作者指出，让网络直接输出什么，至关重要。

论文作者展示了三种预测目标（prediction）和三种损失函数（loss）的所有组合方式，如下图所示:

JiT：大道至简的 Transformer

基于以上洞察，作者提出了 JiT (Just image Transformer) 架构。

纯粹的 ViT：就是一个标准的 Vision Transformer，没有 U-Net 那样的下采样和上采样结构。
操作于像素块：直接将图像分割成大块的 patch（例如 16x16 或 32x32），然后送入 Transformer。
三无产品：无分词器 (tokenizer)，无预训练，无额外损失函数（如感知损失）。
坚定地执行 x-prediction：网络的目标永远是直接输出预测的干净图像。

总结

这篇论文的核心贡献是清晰而深刻的：它重新审视了扩散模型的基础，并有力地论证了“直接预测干净图像”（x-prediction）相较于“预测噪声”（$\epsilon$-prediction）的根本优势，尤其是在处理高维原始数据（如像素）时。

JiT 的成功表明，一个简单、自包含的“Diffusion + Transformer”范式，有潜力成为未来生成模型的基础。它不仅在性能上具有竞争力，更在概念上回归了“去噪”的本质，为我们揭示了一条更简洁、更高效的道路。