硬核数学视角：哈密顿-雅可比-贝尔曼方程如何统一强化学习与扩散模型

1840年的方程，正在统治2024年的AI

一个来自鸦片战争时期的数学公式，居然同时支配着ChatGPT的训练和自动驾驶的决策。

这听起来像科幻，但这是真的。

1952年，Richard Bellman发表《动态规划理论》，奠定了强化学习的数学基础。几年后，当他把这套理论扩展到连续时间系统时，发现了一个令人震惊的事实：他推导出的偏微分方程，与1840年代Hamilton在经典力学中发表的方程一模一样。

一百年的时光，物理学的遗产，变成了人工智能的基石。而更有意思的是，七十年后的今天，这个叫Hamilton-Jacobi-Bellman（HJB）的方程，又悄然统治了最火的生成式AI——扩散模型（Diffusion Models）。

我们到底在创造新技术，还是只是重新发现旧数学？

传统的强化学习是"跳格子"式的。

AI配图

Agent在离散的时间步上做决策：观察状态、采取行动、获得奖励，然后等待下一个时间步。Bellman方程在这种设定下很优雅：当前价值 = 即时奖励 + 折扣后的未来价值。

但真实世界是连续的。自动驾驶汽车不会每秒钟只决策一次，投资组合的调整也不是按帧进行的。

当时间步长$h$趋近于0，离散过程变成连续流，Bellman方程蜕变成HJB方程。这不再是简单的代数等式，而是一个偏微分方程（PDE），涉及时间导数、空间梯度和海森矩阵。

连续时间的本质，是用微积分代替算术。

在连续世界里，策略迭代（Policy Iteration）变成了求解一个随机微分方程（SDE）。价值函数$V(x)$不再是查表，而是用神经网络逼近的连续曲面。每一次策略改进，都是在求解一个带有二阶导数（来自Itô扩散项）的优化问题。

换句话说，你的Agent不再是在棋盘上跳格子，而是在湍急的河流中掌舵。

如果说连续时间RL还算直观，那么HJB方程在扩散模型中的应用，简直是对直觉的暴击。

扩散模型怎么工作？先向前加噪，把图片变成纯高斯噪声，再学习反向过程去噪生成数据。听起来是统计学问题，对吧？

错了。这是最优控制问题。

AI配图

关键洞察在于：反向过程可以看作一个受控的随机微分方程。控制变量$u(x,t)$决定了在每个时间步、每个状态点上的"修正力度"。目标是什么？让终端状态（生成的图片）匹配真实数据分布，同时最小化控制能量（别用力过猛）。

通过Feynman-Kac公式和HJB理论，可以证明：最优控制律$u^*$恰好就是score function——也就是那个让扩散模型学会"去噪方向"的梯度项。

$$\partial_t V = \inf_u \left{ \frac{1}{2}|u|^2 + (\mu + \Sigma u)\cdot \nabla_x V + \frac{1}{2}\text{Tr}(\Sigma\Sigma^\top \nabla^2 V) \right}$$

这个方程看着唬人，但核心思想很简洁：生成图片的过程，就是在噪声海洋中寻找最省力的航线。 而神经网络学习的，正是这张"最优航线图"。

所以当你用Midjourney生成一张赛博朋克猫咪时，背后是一个1840年代风格的力学方程在指挥着2020年代的GPU。

有意思的是，这篇技术博客的评论区，弥漫着一种奇特的焦虑。

一位软件工程师写道："我发现自己被领域内的数学家完全碾压了...我不确定软件工程还能不能存活五年，感觉自己在从事冰块贸易，而他们即将发明冰箱。"

这种焦虑并非空穴来风。

HJB方程要求研究者熟悉随机微分方程、偏微分方程、变分法——这是数学物理的古典装备。当AI从"调参炼丹"走向"数学物理建模"，门槛确实在升高。

另一位评论者提出了更尖锐的质疑："为什么连续时间的数学应该适用于数字计算机？这里有一个根本性问题被掩盖了——有限精度的比特串与需要无限精度的实数分析之间的矛盾。"

说实话，这个问题击中了要害。我们是在用离散的数字电路模拟连续的物理方程。这种"假装"能走多远？

从Hamilton（1840s）到Bellman（1950s），再到今天的扩散模型和连续RL，HJB方程像一条暗河，串联起物理学、控制论和机器学习。

这揭示了一个略显尴尬的真相： 当下最热门的AI突破，往往不是在发明新数学，而是在发现旧数学的新用途。

扩散模型火遍全球，核心trick（score matching）早在2011年就出现了；连续时间RL的数学框架，Bellman在1950年代就搭好了；甚至最优传输理论（Optimal Transport），可以追溯到18世纪的Monge。

那么，创新在哪里？

或许在于视角的转换——把生成建模看作控制问题，把去噪看作最优轨迹规划，把神经网络看作HJB方程的近似求解器。

当物理学家和数学家把AI当作应用数学的新战场，当软件工程师开始恶补SDE（随机微分方程），这场游戏的规则正在改变。

AI配图

下一次当你惊叹于AI生成的完美图像时，不妨想想：那可能是1840年某个关于经典力学的数学推导，在GPU上的一次优雅复活。

我们以为自己在创造未来，也许只是在用Python重写历史。

【kimi-k2.5锐评】：当工程师还在纠结API调用时，数学家已经用1840年的方程锁定了2030年的技术路线图，这才是真正的"降维打击"。

参考链接：
https://dani2442.github.io/posts/continuous-rl/