说实话,现在的 AI 有点太“稳”了。

不管是 GPT-4 还是 Claude,它们就像个博览群书但脑子被“冻住”的天才。不管你怎么问,它们都在训练好的那个固定圈子里打转,也就是所谓的“推理”。

但这事儿现在变了。

斯坦福、英伟达和 Together AI 的一帮研究员,搞出了一套名为 TTT-Discover 的新技术。简单粗暴地说,它让 AI 在回答问题的时候,一边干活一边改自己的脑子

结果很吓人:在一个复杂的 GPU 内核优化任务上,这套系统跑出的速度,比人类专家写的顶级代码还要快 2 倍

这已经不是在“思考”了,这是在实时“进化”。

我们都被“冻结模型”骗了

现在的企业级 AI 策略,其实都在赌一种静态逻辑。

不管你是闭源还是开源,模型参数一旦定下来,就是死的。你给它发个 prompt,它就在那堆固定的数据里找答案。对付那些见过的、类似的问题,这招很灵。

AI配图

但一旦碰到真正的“发现”级难题呢?比如发明一种新算法,或者证明一个从未被证明的数学定理。

这种问题,本质上就是“超纲”的。

论文的联合作者、斯坦福博士 Mert Yuksekgonul 打了个很硬核的比方。他说,如果只靠现在的“思考模型”,根本没法证明像 P != NP 这种终极数学难题。

这就好比让安德鲁·怀尔斯证明费马大定理,如果不让他花 7 年时间闭关修炼、不断试错,而是直接让他进考场答题,他也得挂。

TTT-Discover 就是要打破这个僵局。

它不再把测试问题当成一个简单的“问答”,而是把它当成一个需要被征服的“环境”。模型在尝试解题的过程中,会生成失败、部分成功、各种错误数据。

传统方法会把这些当垃圾扔掉,但 TTT-Discover 拿来实时更新模型的权重。

这就意味着,模型不再是那个试图面面俱到的“通才”,而是瞬间变成了针对这一个问题的“特种兵”。

它不要“正确答案”,它要“尤里卡时刻”

这玩意儿和普通的强化学习(RL)有本质区别。

传统的 RL 是为了培养一个“优等生”,追求的是在各种任务上平均分最高。如果你走了一步险棋输了,传统 RL 会狠狠惩罚你,教你做人。

但 TTT-Discover 不这么想。

它引入了一个叫 “熵目标” 的东西。这名字听着玄乎,逻辑却很狂野:它不看重平均分,而是指数级放大那些高分结果

换句话说,它鼓励模型去冒险。它不在乎你失败多少次,它只要那个极其罕见、回报巨大的“尤里卡”时刻。

配合一个叫 PUCT 搜索 的算法(灵感来自 AlphaZero),系统会像下棋一样构建搜索树,实时训练模型去识别那些通向“大奖”的路径。

这就有意思了。

这就像你不需要一个人在所有科目都考 80 分,你只需要他在某一次考试里,哪怕只有一道题,解出前无古人的 120 分。

一旦那个“神器”(优化好的代码、证明的定理)被发现,产生它的那个神经网络甚至可以直接扔掉。它只是个产卵的母体,我们要的是那个蛋。

一次 500 美元,贵吗?

听到这儿,肯定有人要问:这得烧多少钱吧?

老实讲,这钱不少。

研究人员算了一笔账:单次发现任务,大约涉及 50 个训练步骤和数千次推演,成本大概 500 美元

对于那些习惯了几厘钱调一次 API 的公司来说,这简直是天价。

但这里有个巨大的认知偏差。

这东西压根就不是为了让你“写个周报”或者“生成个营销文案”设计的。它是为了解决那些**“低频、高价值”**的问题。

想象一下,一个云原生企业,每晚都要处理 PB 级的数据。如果它的核心 SQL 查询或者 GPU 内核能被优化 1%,一年省下的算力成本可能就是几十万甚至上百万美元。

这时候,花 500 美元找个比人类快 2 倍的内核,简直是捡钱。

Mert 说得很直白:对于那些供应链路由、药物设计、材料发现这种“一次优化,长期受益”的领域,花几百美金做一次发现,回报率高得吓人。

别指望它帮你写“更好的营销策略”

虽然吹得这么神,但这技术有个致命的门槛,甚至可以说是个“照妖镜”。

TTT-Discover 需要一个可验证的、标量的信号

说白了,系统得知道什么是“更好”,而且这个“更好”得是一个硬邦邦的数字,比如运行时间(微秒级)、错误率、或者分子结合能。

在那些能跑代码、算数据的硬核领域,TTT-Discover 简直是个战神。

他们在实验里,用这玩意儿优化 GPU 矩阵乘法内核(包括 AlphaFold 用到的 TriMul 内核),直接把速度干到了前无古人的 2 倍。在 AtCoder 这种算法竞赛里,它也能解决比人类专家还难的几何约束优化问题。

但如果你问它:“帮我写个更好的营销策略。”

它大概率会死机。

因为“好不好”太主观了,没法量化,也没法验证。Mert 也承认,这种难以验证的问题,目前还是个无解的难题。

我个人觉得,这反而是个好事情。它逼着企业去思考:到底哪些问题才是真正值得用 AI 去攻坚的“硬骨头”,而不是把 AI 当作生产废话的玩具。

开源模型的又一次胜利

最后还有个彩蛋,这点我特别想强调。

你可能会觉得,这么牛的技术,肯定得用最顶级的闭源模型吧?

AI配图

完全不是。

研究人员拿到 State-of-the-Art 结果,用的是 OpenAI 的开源权重模型 gpt-oss-120b

这意味着什么?意味着企业完全可以在自己的私有 VPC 里,或者自建的 H100 集群上跑这套“发现循环”。根本不需要把核心数据发给第三方。

代码也已经开源了。

如果你公司本来就搞强化学习,那甚至不需要额外的基础设施。就算没有,像 Tinker 这种工具也能帮你搞定复杂的分布式训练。

这不仅仅是一次算法的升级,这是对企业 AI 架构的一次重新定义。

未来的 AI 系统,可能不再是那个只会陪聊的“冻结模型”,而是一个能把推理算力转化成自动化研发实验室的“发明家”。

你准备好,把你的 AI 从“客服”变成“科学家”了吗?

参考链接:
https://venturebeat.com/infrastructure/ttt-discover-optimizes-gpu-kernels-2x-faster-than-human-experts-by-training