1840年的方程,正在统治2024年的AI
一个来自鸦片战争时期的数学公式,居然同时支配着ChatGPT的训练和自动驾驶的决策。
这听起来像科幻,但这是真的。
1952年,Richard Bellman发表《动态规划理论》,奠定了强化学习的数学基础。几年后,当他把这套理论扩展到连续时间系统时,发现了一个令人震惊的事实:他推导出的偏微分方程,与1840年代Hamilton在经典力学中发表的方程一模一样。
一百年的时光,物理学的遗产,变成了人工智能的基石。而更有意思的是,七十年后的今天,这个叫Hamilton-Jacobi-Bellman(HJB)的方程,又悄然统治了最火的生成式AI——扩散模型(Diffusion Models)。
我们到底在创造新技术,还是只是重新发现旧数学?
从离散到流:RL的"连续化"冒险
传统的强化学习是"跳格子"式的。
Agent在离散的时间步上做决策:观察状态、采取行动、获得奖励,然后等待下一个时间步。Bellman方程在这种设定下很优雅:当前价值 = 即时奖励 + 折扣后的未来价值。
但真实世界是连续的。自动驾驶汽车不会每秒钟只决策一次,投资组合的调整也不是按帧进行的。
当时间步长$h$趋近于0,离散过程变成连续流,Bellman方程蜕变成HJB方程。这不再是简单的代数等式,而是一个偏微分方程(PDE),涉及时间导数、空间梯度和海森矩阵。
连续时间的本质,是用微积分代替算术。
在连续世界里,策略迭代(Policy Iteration)变成了求解一个随机微分方程(SDE)。价值函数$V(x)$不再是查表,而是用神经网络逼近的连续曲面。每一次策略改进,都是在求解一个带有二阶导数(来自Itô扩散项)的优化问题。
换句话说,你的Agent不再是在棋盘上跳格子,而是在湍急的河流中掌舵。
扩散模型:一场精心设计的"逆时间"控制
如果说连续时间RL还算直观,那么HJB方程在扩散模型中的应用,简直是对直觉的暴击。
扩散模型怎么工作?先向前加噪,把图片变成纯高斯噪声,再学习反向过程去噪生成数据。听起来是统计学问题,对吧?
错了。这是最优控制问题。
关键洞察在于:反向过程可以看作一个受控的随机微分方程。控制变量$u(x,t)$决定了在每个时间步、每个状态点上的"修正力度"。目标是什么?让终端状态(生成的图片)匹配真实数据分布,同时最小化控制能量(别用力过猛)。
通过Feynman-Kac公式和HJB理论,可以证明:最优控制律$u^*$恰好就是score function——也就是那个让扩散模型学会"去噪方向"的梯度项。
$$\partial_t V = \inf_u \left{ \frac{1}{2}|u|^2 + (\mu + \Sigma u)\cdot \nabla_x V + \frac{1}{2}\text{Tr}(\Sigma\Sigma^\top \nabla^2 V) \right}$$
这个方程看着唬人,但核心思想很简洁:生成图片的过程,就是在噪声海洋中寻找最省力的航线。 而神经网络学习的,正是这张"最优航线图"。
所以当你用Midjourney生成一张赛博朋克猫咪时,背后是一个1840年代风格的力学方程在指挥着2020年代的GPU。
数学家的"降维打击"
有意思的是,这篇技术博客的评论区,弥漫着一种奇特的焦虑。
一位软件工程师写道:"我发现自己被领域内的数学家完全碾压了...我不确定软件工程还能不能存活五年,感觉自己在从事冰块贸易,而他们即将发明冰箱。"
这种焦虑并非空穴来风。
HJB方程要求研究者熟悉随机微分方程、偏微分方程、变分法——这是数学物理的古典装备。当AI从"调参炼丹"走向"数学物理建模",门槛确实在升高。
另一位评论者提出了更尖锐的质疑:"为什么连续时间的数学应该适用于数字计算机?这里有一个根本性问题被掩盖了——有限精度的比特串与需要无限精度的实数分析之间的矛盾。"
说实话,这个问题击中了要害。我们是在用离散的数字电路模拟连续的物理方程。这种"假装"能走多远?
我们站在谁肩膀上?
从Hamilton(1840s)到Bellman(1950s),再到今天的扩散模型和连续RL,HJB方程像一条暗河,串联起物理学、控制论和机器学习。
这揭示了一个略显尴尬的真相: 当下最热门的AI突破,往往不是在发明新数学,而是在发现旧数学的新用途。
扩散模型火遍全球,核心trick(score matching)早在2011年就出现了;连续时间RL的数学框架,Bellman在1950年代就搭好了;甚至最优传输理论(Optimal Transport),可以追溯到18世纪的Monge。
那么,创新在哪里?
或许在于视角的转换——把生成建模看作控制问题,把去噪看作最优轨迹规划,把神经网络看作HJB方程的近似求解器。
当物理学家和数学家把AI当作应用数学的新战场,当软件工程师开始恶补SDE(随机微分方程),这场游戏的规则正在改变。
下一次当你惊叹于AI生成的完美图像时,不妨想想:那可能是1840年某个关于经典力学的数学推导,在GPU上的一次优雅复活。
我们以为自己在创造未来,也许只是在用Python重写历史。
【kimi-k2.5锐评】:当工程师还在纠结API调用时,数学家已经用1840年的方程锁定了2030年的技术路线图,这才是真正的"降维打击"。
参考链接:
https://dani2442.github.io/posts/continuous-rl/