比人类快2倍，一次500刀：斯坦福联手英伟达，正在“杀死”冻结的大模型

说实话，现在的 AI 有点太“稳”了。

不管是 GPT-4 还是 Claude，它们就像个博览群书但脑子被“冻住”的天才。不管你怎么问，它们都在训练好的那个固定圈子里打转，也就是所谓的“推理”。

但这事儿现在变了。

斯坦福、英伟达和 Together AI 的一帮研究员，搞出了一套名为 TTT-Discover 的新技术。简单粗暴地说，它让 AI 在回答问题的时候，一边干活一边改自己的脑子。

结果很吓人：在一个复杂的 GPU 内核优化任务上，这套系统跑出的速度，比人类专家写的顶级代码还要快 2 倍。

这已经不是在“思考”了，这是在实时“进化”。

我们都被“冻结模型”骗了

现在的企业级 AI 策略，其实都在赌一种静态逻辑。

不管你是闭源还是开源，模型参数一旦定下来，就是死的。你给它发个 prompt，它就在那堆固定的数据里找答案。对付那些见过的、类似的问题，这招很灵。

AI配图

但一旦碰到真正的“发现”级难题呢？比如发明一种新算法，或者证明一个从未被证明的数学定理。

这种问题，本质上就是“超纲”的。

论文的联合作者、斯坦福博士 Mert Yuksekgonul 打了个很硬核的比方。他说，如果只靠现在的“思考模型”，根本没法证明像 P != NP 这种终极数学难题。

这就好比让安德鲁·怀尔斯证明费马大定理，如果不让他花 7 年时间闭关修炼、不断试错，而是直接让他进考场答题，他也得挂。

TTT-Discover 就是要打破这个僵局。

它不再把测试问题当成一个简单的“问答”，而是把它当成一个需要被征服的“环境”。模型在尝试解题的过程中，会生成失败、部分成功、各种错误数据。

传统方法会把这些当垃圾扔掉，但 TTT-Discover 拿来实时更新模型的权重。

这就意味着，模型不再是那个试图面面俱到的“通才”，而是瞬间变成了针对这一个问题的“特种兵”。

它不要“正确答案”，它要“尤里卡时刻”

这玩意儿和普通的强化学习（RL）有本质区别。

传统的 RL 是为了培养一个“优等生”，追求的是在各种任务上平均分最高。如果你走了一步险棋输了，传统 RL 会狠狠惩罚你，教你做人。

但 TTT-Discover 不这么想。

它引入了一个叫 “熵目标” 的东西。这名字听着玄乎，逻辑却很狂野：它不看重平均分，而是指数级放大那些高分结果。

换句话说，它鼓励模型去冒险。它不在乎你失败多少次，它只要那个极其罕见、回报巨大的“尤里卡”时刻。

配合一个叫 PUCT 搜索 的算法（灵感来自 AlphaZero），系统会像下棋一样构建搜索树，实时训练模型去识别那些通向“大奖”的路径。

这就有意思了。

这就像你不需要一个人在所有科目都考 80 分，你只需要他在某一次考试里，哪怕只有一道题，解出前无古人的 120 分。

一旦那个“神器”（优化好的代码、证明的定理）被发现，产生它的那个神经网络甚至可以直接扔掉。它只是个产卵的母体，我们要的是那个蛋。

一次 500 美元，贵吗？

听到这儿，肯定有人要问：这得烧多少钱吧？

老实讲，这钱不少。

研究人员算了一笔账：单次发现任务，大约涉及 50 个训练步骤和数千次推演，成本大概 500 美元。

对于那些习惯了几厘钱调一次 API 的公司来说，这简直是天价。

但这里有个巨大的认知偏差。

这东西压根就不是为了让你“写个周报”或者“生成个营销文案”设计的。它是为了解决那些**“低频、高价值”**的问题。

想象一下，一个云原生企业，每晚都要处理 PB 级的数据。如果它的核心 SQL 查询或者 GPU 内核能被优化 1%，一年省下的算力成本可能就是几十万甚至上百万美元。

这时候，花 500 美元找个比人类快 2 倍的内核，简直是捡钱。

Mert 说得很直白：对于那些供应链路由、药物设计、材料发现这种“一次优化，长期受益”的领域，花几百美金做一次发现，回报率高得吓人。

别指望它帮你写“更好的营销策略”

虽然吹得这么神，但这技术有个致命的门槛，甚至可以说是个“照妖镜”。

TTT-Discover 需要一个可验证的、标量的信号。

说白了，系统得知道什么是“更好”，而且这个“更好”得是一个硬邦邦的数字，比如运行时间（微秒级）、错误率、或者分子结合能。

在那些能跑代码、算数据的硬核领域，TTT-Discover 简直是个战神。

他们在实验里，用这玩意儿优化 GPU 矩阵乘法内核（包括 AlphaFold 用到的 TriMul 内核），直接把速度干到了前无古人的 2 倍。在 AtCoder 这种算法竞赛里，它也能解决比人类专家还难的几何约束优化问题。

但如果你问它：“帮我写个更好的营销策略。”

它大概率会死机。

因为“好不好”太主观了，没法量化，也没法验证。Mert 也承认，这种难以验证的问题，目前还是个无解的难题。

我个人觉得，这反而是个好事情。它逼着企业去思考：到底哪些问题才是真正值得用 AI 去攻坚的“硬骨头”，而不是把 AI 当作生产废话的玩具。

开源模型的又一次胜利

最后还有个彩蛋，这点我特别想强调。

你可能会觉得，这么牛的技术，肯定得用最顶级的闭源模型吧？

AI配图

完全不是。

研究人员拿到 State-of-the-Art 结果，用的是 OpenAI 的开源权重模型 gpt-oss-120b。

这意味着什么？意味着企业完全可以在自己的私有 VPC 里，或者自建的 H100 集群上跑这套“发现循环”。根本不需要把核心数据发给第三方。

代码也已经开源了。

如果你公司本来就搞强化学习，那甚至不需要额外的基础设施。就算没有，像 Tinker 这种工具也能帮你搞定复杂的分布式训练。

这不仅仅是一次算法的升级，这是对企业 AI 架构的一次重新定义。

未来的 AI 系统，可能不再是那个只会陪聊的“冻结模型”，而是一个能把推理算力转化成自动化研发实验室的“发明家”。

你准备好，把你的 AI 从“客服”变成“科学家”了吗？

参考链接：
https://venturebeat.com/infrastructure/ttt-discover-optimizes-gpu-kernels-2x-faster-than-human-experts-by-training