小米,把AI加速到“思考”的速度

当AI的生成速度突破每秒1000个token,事情就不再是“更快一点”那么简单了。

它意味着,一个万亿参数的庞然大物,反应速度开始逼近人类思维的瞬间。

logo

今天,小米联手TileRT团队,做到了这件事:首次在1万亿参数模型上,将解码速度推到了每秒1000 tokens以上

MiMo-V2.5-Pro UltraSpeed实时生成速度对比(最高约1200 tokens/s)

快,就是最硬的智能

从蒸汽机突破声障,到信息流光速穿梭,人类对速度的渴望,刻在基因里。AI推理的速度,同样定义着智能的边界。

当一个模型快到一定程度,它就从你等待的工具,变成了你思维的延伸。

现在,你可以实时交互、瞬间迭代、毫无摩擦地协作。但前提是,你得先拿到这张“体验券”。

限时体验:三倍价格,十倍爽感

小米这次很“高调”。MiMo-V2.5-Pro-UltraSpeed API 同步发布,定价是常规Pro版的3倍,但换来的是约10倍的生成速度体验

3倍的价格,10倍的输出效率。 这笔账,对于追求极致效率的企业和开发者来说,值得算一算。

不过,资源有限,采用申请制。开放时间只有短短两周(6月9日至23日)。想要尝鲜,得先证明你的业务真的需要这种“速度与激情”。

1000 tps:一场静悄悄的范式革命

每秒吐出1000个token,远不止是打字机变快了。它正在撬动三个根本性的变化。

首先,速度本身开始“变成”智能。 遇到难题,过去是“等一个答案,听天由命”。现在,同样时间内,模型可以并行跑通几十条推理路径(Best-of-N / 树搜索),在后台自动验证、自我修正。用原始的速度,直接堆出了思考的深度。

其次,编程Agent的生产力天花板被彻底掀翻。 以前让AI写码,开发者痛苦地盯着屏幕,被推理延迟卡脖子。在1000 tps下,代码生成的速度和效率,迎来了范式级的加速

10秒构建一个贪吃蛇游戏
10秒构建一个贪吃蛇游戏

1分钟复刻一个MacOS界面
1分钟复刻一个MacOS界面

最重要的是,万亿参数模型终于能挤进“实时决策”回路了。 毫秒级的“思考-响应”循环,让1T旗舰模型可以无缝插入高频量化交易信号生成、实时反欺诈拦截、智能竞价、实时互动对话等场景。

而在手术辅助、医疗影像分析这些与死神赛跑的场景里,AI的速度不再只是效率指标,更成了生命的筹码。在手术台上,AI完成病灶分析和风险预测每快一秒,主刀医生就多一分自由度。这加深了我们的一个信念:速度的终极意义,不是单纯提升生产力,而是让技术更好地帮助人类生活。

极限的“模型-系统”协同设计

在万亿参数规模上突破1000 tps,不是单点技术的胜利,而是小米MiMo模型团队与TileRT系统团队深度协作、极限“协同设计” 的产物。

业内实现类似极端速度,通常依赖专用硬件——比如Cerebras的晶圆级集成,或Groq的纯片上SRAM定制架构。小米和TileRT选了一条不同的路:仅通过模型-系统协同设计,在通用GPU上实现了更惊人的推理速度。

FP4量化(仅MoE Experts)与FP8在各基准测试上的模型能力对比,整体能力与原模型基本持平
FP4量化(仅MoE Experts)与FP8在各基准测试上的模型能力对比,整体能力与原模型基本持平

模型侧,他们针对通用硬件的带宽瓶颈,应用了FP4量化,大幅缩小模型体积,减少内存访问开销;同时,引入DFlash——一种基于块级掩码并行预测的高效推测解码方法,大幅提升每轮验证的“接受token长度”。

系统侧,TileRT则完美适配这些算法的动态特性,提供了一套为这套新型量化和推测解码流水线量身定制的编译引擎和计算内核

正是通过这种极致的协同设计,他们仅用一台标准的8卡商用GPU节点,就让1T模型输出了1000+ tokens/s的速度。

老实讲,这条“软硬协同”的技术路线,比单纯堆专用硬件更具普适性和想象力。

背后的硬核:FP4、DFlash与TileRT

实现这个速度,有三个关键技术必须讲清楚。

一是“只砍最胖的”FP4量化。 在万亿参数下,传统8位甚至16位推理的显存和带宽压力巨大。小米采用了广泛验证、近乎无损的FP4(MXFP4)量化格式。但他们很聪明:MiMo-V2.5-Pro是MoE(混合专家)架构,其中的“专家”模块占参数量大,且对量化最“耐受”。于是他们只对MoE Experts进行FP4量化,其他模块保持原精度。通过FP4量化感知训练,在大幅减小模型、最大化利用硬件带宽的同时,保持了模型整体能力与原版基本持平。

二是“一次猜对一整块”的DFlash推测解码。 传统推测解码依赖小模型“猜”后续token,再由大模型验证。瓶颈在于小模型的“猜中率”。小米采用的DFlash方法,让小模型一次性“猜”对一整个块的token,从根本上消除了自回归起草的串行约束。在编码场景下,平均接受长度达到了6.30,意味着每轮验证的8个草稿token中,有6-7个被接受。小模型依然轻量,但将接受率推到了能产生真实端到端增益的水平。

三是TileRT:让GPU“流动”起来。 在1000 tps的频率下,每个算子的生命周期被压缩到微秒级,“算子边界”成了核心瓶颈。TileRT引入了一种全新的执行模型:持久化引擎内核,摒弃了传统的逐算子发射范式,让整个计算流水线常驻在GPU内流动,实现数据搬运与计算的极致重叠;Warp异构协同,将通信、数据搬运和张量计算在更细粒度上解耦,让GPU变成一台持续流动、精确编排的异构执行系统。

1000 tokens/s的诞生,不是偶然的优化,而是世界级系统基础设施与极致算法模型向彼此深度奔赴、共同演进的必然结果。

未来已来:当速度成为新基准

小米已经开源了MiMo-V2.5-Pro-FP4-DFlash的检查点,欢迎社区使用和反馈。UltraSpeed对标准MiMo-V2.5的支持也已在路上。

一边是美国厂商模型能力卷出天际但价格水涨船高,另一边是中国厂商在速度、成本和工程落地上疯狂“卷”出新高度。这种分野,正在悄然改变AI行业的竞争格局和用户选择。

有热门评论说,极致的AI速度既让人兴奋,又让人不安。兴奋在于生产力的解放,不安则在于,当机器的思考变得比我们更快、甚至更“深”时,人类的“手艺”和“从容”还剩下什么?

速度是硬币的一面,它开辟了新大陆。另一面写着什么,或许才是我们真正需要思考的。当AI快到足以模拟深度思考,我们是否该重新定义“智能”与“匠心”的价值?

【锐评】:这不仅仅是一次速度刷新,更是一份用“软硬协同”挑战专用硬件路线的中国方案。当速度逼近思维,技术的浪漫与焦虑同时到来。

参考链接:
https://mimo.xiaomi.com/blog/mimo-tilert-1000tps