$z_t = t \cdot x + (1 - t) \cdot \epsilon$
$z_t = t \cdot x + (1 - t) \cdot \epsilon$ 中,$t$ 和 $1 - t$ 可以被理解为一种“权重分配”或“比例杠杆”。
这其实是一个非常经典的线性插值(Linear Interpolation / Lerp)过程。可以从以下三个维度来拆解:
1. “信号”与“噪声”的博弈
把这个过程想象成一个调音台上的推子:
- $t$ 是“信号(干净图像 $x$)”的音量: $t$ 越大,图像看得越清楚。
- $1-t$ 是“背景音(噪声 $\epsilon$)”的音量: $t$ 越小,$1-t$ 就越大,噪声就越震耳欲聋。
两者之和始终为 $1$ ($t + 1 - t = 1$),这意味着无论在哪个时刻,总的“能量”或“透明度”是恒定的。
2. 动态演变过程(随时间 $t$ 的变化)
根据这个公式,观察 $t$ 从 0 到 1 的变化过程(注意:在某些流派中 $t=0$ 代表纯噪声,这里按公式来分析):
- 当 $t = 0$ 时:
$z_0 = 0 \cdot x + (1) \cdot \epsilon = \epsilon$
此时图像完全消失,只剩下纯噪声。 - 当 $t = 0.5$ 时:
$z_{0.5} = 0.5 \cdot x + 0.5 \cdot \epsilon$
此时是“半工半读”状态,你能隐约看到图像的轮子或轮廓,但上面覆盖了一层厚厚的雪花。 - 当 $t = 1$ 时:
$z_1 = 1 \cdot x + 0 \cdot \epsilon = x$
噪声消失,得到了完全干净的图像。
3. 几何上的直观理解:一条“直线”
在高维空间里,这个公式表示的是一条直线:
- 点 A 是噪声 $\epsilon$。
- 点 B 是干净图像 $x$。
- $t$ 和 $1-t$ 就是你在路上的进度: 随着 $t$ 从 0 变成 1,你就沿着这条笔直的路径,从杂乱无章的噪声点 $\epsilon$,精确地走到了有意义的图像点 $x$。
为什么这样设计?
在论文提到的“流式匹配(Flow Matching)”或改进的扩散模型中,这种线性的加噪方式非常受欢迎,因为它比传统的扩散模型更简单直接:
- 路径最短: 两点之间线段最短。线性加噪让网络学习的“流速 $v$”变成了一个恒定的方向,学习起来更稳定。
- 数学直观: 你不需要处理复杂的指数衰减或复杂的方差调度(Variance Schedule),一眼就能看出现在的图像里含有多少比例的原始信息。
总结:
$t$ 就是
$t$ 就是
“保留多少真相”,$1-t$ 就是“引入多少混乱”。模型训练的目标,就是学会在看到这种“混合体”时,如何精准地剥离出 $t$ 那部分的真相。