Q-learning

2026-1-21 AI / Reinforcement Learning 42 Views

Q-learning

Q-learning 的核心就是不断地探索，然后更新这张表里的分数，直到这张表能告诉你所有情况下的最优选择

从数学上看

Q-learning 的核心就是贝尔曼方程（Bellman Equation）的迭代更新公式。

公式如下：

Q(s, a) \leftarrow Q(s, a) + \alpha \cdot \left[ \underbrace{r + \gamma \cdot \max_{a'} Q(s', a')}_{\text{现实（Target）}} - \underbrace{Q(s, a)}_{\text{预测（Current）}} \right]

符号解释：

$s$：当前状态（State，比如你在路口）。
$a$：当前动作（Action，比如向左走）。
$s'$：下一个状态（Next State，比如走到了陷阱里）。
$r$：刚才那个动作拿到的即时奖励（Reward，比如 -100）。
$\alpha$：学习率（Learning Rate）。就是你听劝的程度。如果是 1，完全听现实的；如果是 0，完全不听，死守旧观念。
$\gamma$：折扣因子（Discount Factor）。代表你有没有远见。
- 0：只看眼前的利益。
- 接近 1：非常看重未来的长期收益。

公式逻辑拆解

1. $Q(s, a)$（旧观念）：

这是你更新前，小本本上记录的分数。比如你本来以为往左走能得 0 分。

2. $r + \gamma \cdot \max_{a'} Q(s', a')$（新现实 / Target）：

这是你走了一步后，发现的真实情况。它由两部分组成：

$r$：眼前的甜头。刚才那一步实际拿到的分（比如 -100）。
$\gamma \cdot \max_{a'} Q(s', a')$：未来的预期。到了新位置 $s'$ 后，你往后看，觉得自己以后最好能拿多少分。
这句话的意思是：这一步的真实价值 = 眼前的奖励 + 未来最好的预期。

3. $[\dots] - Q(s, a)$（误差 / TD Error）：

用「新现实」减去「旧观念」。

如果差值是正的，说明以前低估了这个动作，要加分。
如果差值是负的，说明以前高估了这个动作，要扣分。

4. $Q(s, a) \leftarrow Q(s, a) + \alpha \cdot \text{误差}$（修正）：

根据算出来的误差，按比例 $\alpha$ 修改小本本上的分数。

Comments Section