$z_t = t \cdot x + (1 - t) \cdot \epsilon$

$z_t = t \cdot x + (1 - t) \cdot \epsilon$ 中，$t$ 和 $1 - t$ 可以被理解为一种“权重分配”或“比例杠杆”。

这其实是一个非常经典的线性插值（Linear Interpolation / Lerp）过程。可以从以下三个维度来拆解：

1. “信号”与“噪声”的博弈

把这个过程想象成一个调音台上的推子：

两者之和始终为 $1$ ($t + 1 - t = 1$)，这意味着无论在哪个时刻，总的“能量”或“透明度”是恒定的。

根据这个公式，观察 $t$ 从 0 到 1 的变化过程（注意：在某些流派中 $t=0$ 代表纯噪声，这里按公式来分析）：

当 $t = 0$ 时：
$z_0 = 0 \cdot x + (1) \cdot \epsilon = \epsilon$
此时图像完全消失，只剩下纯噪声。
当 $t = 0.5$ 时：
$z_{0.5} = 0.5 \cdot x + 0.5 \cdot \epsilon$
此时是“半工半读”状态，你能隐约看到图像的轮子或轮廓，但上面覆盖了一层厚厚的雪花。
当 $t = 1$ 时：
$z_1 = 1 \cdot x + 0 \cdot \epsilon = x$
噪声消失，得到了完全干净的图像。

在高维空间里，这个公式表示的是一条直线：

点 A 是噪声 $\epsilon$。
点 B 是干净图像 $x$。
$t$ 和 $1-t$ 就是你在路上的进度： 随着 $t$ 从 0 变成 1，你就沿着这条笔直的路径，从杂乱无章的噪声点 $\epsilon$，精确地走到了有意义的图像点 $x$。

在论文提到的“流式匹配（Flow Matching）”或改进的扩散模型中，这种线性的加噪方式非常受欢迎，因为它比传统的扩散模型更简单直接：

总结：
$t$ 就是“保留多少真相”，$1-t$ 就是“引入多少混乱”。模型训练的目标，就是学会在看到这种“混合体”时，如何精准地剥离出 $t$ 那部分的真相。