说实话,现在的 AI 有点太“稳”了。
不管是 GPT-4 还是 Claude,它们就像个博览群书但脑子被“冻住”的天才。不管你怎么问,它们都在训练好的那个固定圈子里打转,也就是所谓的“推理”。
但这事儿现在变了。
斯坦福、英伟达和 Together AI 的一帮研究员,搞出了一套名为 TTT-Discover 的新技术。简单粗暴地说,它让 AI 在回答问题的时候,一边干活一边改自己的脑子。
结果很吓人:在一个复杂的 GPU 内核优化任务上,这套系统跑出的速度,比人类专家写的顶级代码还要快 2 倍。
这已经不是在“思考”了,这是在实时“进化”。
我们都被“冻结模型”骗了
现在的企业级 AI 策略,其实都在赌一种静态逻辑。
不管你是闭源还是开源,模型参数一旦定下来,就是死的。你给它发个 prompt,它就在那堆固定的数据里找答案。对付那些见过的、类似的问题,这招很灵。
但一旦碰到真正的“发现”级难题呢?比如发明一种新算法,或者证明一个从未被证明的数学定理。
这种问题,本质上就是“超纲”的。
论文的联合作者、斯坦福博士 Mert Yuksekgonul 打了个很硬核的比方。他说,如果只靠现在的“思考模型”,根本没法证明像 P != NP 这种终极数学难题。
这就好比让安德鲁·怀尔斯证明费马大定理,如果不让他花 7 年时间闭关修炼、不断试错,而是直接让他进考场答题,他也得挂。
TTT-Discover 就是要打破这个僵局。
它不再把测试问题当成一个简单的“问答”,而是把它当成一个需要被征服的“环境”。模型在尝试解题的过程中,会生成失败、部分成功、各种错误数据。
传统方法会把这些当垃圾扔掉,但 TTT-Discover 拿来实时更新模型的权重。
这就意味着,模型不再是那个试图面面俱到的“通才”,而是瞬间变成了针对这一个问题的“特种兵”。
它不要“正确答案”,它要“尤里卡时刻”
这玩意儿和普通的强化学习(RL)有本质区别。
传统的 RL 是为了培养一个“优等生”,追求的是在各种任务上平均分最高。如果你走了一步险棋输了,传统 RL 会狠狠惩罚你,教你做人。
但 TTT-Discover 不这么想。
它引入了一个叫 “熵目标” 的东西。这名字听着玄乎,逻辑却很狂野:它不看重平均分,而是指数级放大那些高分结果。
换句话说,它鼓励模型去冒险。它不在乎你失败多少次,它只要那个极其罕见、回报巨大的“尤里卡”时刻。
配合一个叫 PUCT 搜索 的算法(灵感来自 AlphaZero),系统会像下棋一样构建搜索树,实时训练模型去识别那些通向“大奖”的路径。
这就有意思了。
这就像你不需要一个人在所有科目都考 80 分,你只需要他在某一次考试里,哪怕只有一道题,解出前无古人的 120 分。
一旦那个“神器”(优化好的代码、证明的定理)被发现,产生它的那个神经网络甚至可以直接扔掉。它只是个产卵的母体,我们要的是那个蛋。
一次 500 美元,贵吗?
听到这儿,肯定有人要问:这得烧多少钱吧?
老实讲,这钱不少。
研究人员算了一笔账:单次发现任务,大约涉及 50 个训练步骤和数千次推演,成本大概 500 美元。
对于那些习惯了几厘钱调一次 API 的公司来说,这简直是天价。
但这里有个巨大的认知偏差。
这东西压根就不是为了让你“写个周报”或者“生成个营销文案”设计的。它是为了解决那些**“低频、高价值”**的问题。
想象一下,一个云原生企业,每晚都要处理 PB 级的数据。如果它的核心 SQL 查询或者 GPU 内核能被优化 1%,一年省下的算力成本可能就是几十万甚至上百万美元。
这时候,花 500 美元找个比人类快 2 倍的内核,简直是捡钱。
Mert 说得很直白:对于那些供应链路由、药物设计、材料发现这种“一次优化,长期受益”的领域,花几百美金做一次发现,回报率高得吓人。
别指望它帮你写“更好的营销策略”
虽然吹得这么神,但这技术有个致命的门槛,甚至可以说是个“照妖镜”。
TTT-Discover 需要一个可验证的、标量的信号。
说白了,系统得知道什么是“更好”,而且这个“更好”得是一个硬邦邦的数字,比如运行时间(微秒级)、错误率、或者分子结合能。
在那些能跑代码、算数据的硬核领域,TTT-Discover 简直是个战神。
他们在实验里,用这玩意儿优化 GPU 矩阵乘法内核(包括 AlphaFold 用到的 TriMul 内核),直接把速度干到了前无古人的 2 倍。在 AtCoder 这种算法竞赛里,它也能解决比人类专家还难的几何约束优化问题。
但如果你问它:“帮我写个更好的营销策略。”
它大概率会死机。
因为“好不好”太主观了,没法量化,也没法验证。Mert 也承认,这种难以验证的问题,目前还是个无解的难题。
我个人觉得,这反而是个好事情。它逼着企业去思考:到底哪些问题才是真正值得用 AI 去攻坚的“硬骨头”,而不是把 AI 当作生产废话的玩具。
开源模型的又一次胜利
最后还有个彩蛋,这点我特别想强调。
你可能会觉得,这么牛的技术,肯定得用最顶级的闭源模型吧?
完全不是。
研究人员拿到 State-of-the-Art 结果,用的是 OpenAI 的开源权重模型 gpt-oss-120b。
这意味着什么?意味着企业完全可以在自己的私有 VPC 里,或者自建的 H100 集群上跑这套“发现循环”。根本不需要把核心数据发给第三方。
代码也已经开源了。
如果你公司本来就搞强化学习,那甚至不需要额外的基础设施。就算没有,像 Tinker 这种工具也能帮你搞定复杂的分布式训练。
这不仅仅是一次算法的升级,这是对企业 AI 架构的一次重新定义。
未来的 AI 系统,可能不再是那个只会陪聊的“冻结模型”,而是一个能把推理算力转化成自动化研发实验室的“发明家”。
你准备好,把你的 AI 从“客服”变成“科学家”了吗?
参考链接:
https://venturebeat.com/infrastructure/ttt-discover-optimizes-gpu-kernels-2x-faster-than-human-experts-by-training