小硬件,也能跑大模型

Meta悄无声息地甩出了一个更新:

SAM 3.1。

在单块H100 GPU上,处理128个物体,推理速度快了整整7倍,而且——精度没丢。

这还不是最狠的。

"help make high-performance applications feasible on smaller, more accessible hardware."

image

翻译成人话就是:以前需要数据中心才能跑的东西,现在一块消费级显卡,甚至更小的硬件,就能搞定。

16个物体,一次搞定

先简单科普一下SAM是什么。

Segment Anything Model,Meta家的"分割一切"模型。你可以把它理解成计算机视觉里的"瑞士军刀"——不管是图片还是视频,它都能精准地把里面的物体"抠"出来。

SAM 3是第三代,848M参数,一个能同时做图像分割、视频跟踪、交互式优化的大家伙。

但之前有个致命问题:每跟踪一个物体,得单独跑一遍模型。

image

一个视频里有10个物体,跑10次。100个物体,跑100次。

这谁扛得住?

所以SAM 3虽然强,但跟普通开发者、创业团队、小工作室基本没什么关系——运算成本太高,硬件门槛太高,大家只能眼巴巴地看着Meta秀肌肉。

直到3.1版本祭出了Object Multiplexing(物体多路复用)这个大杀器。

SAM 3.1现在支持在单次前向传播中同时跟踪最多16个物体。所有物体的特征共享一个内存空间,一次计算,多重输出。

结果就是:速度暴增,显存占用暴跌。

"16 objects in a single forward pass is a huge deal for video pipelines. the per object overhead was the main reason SAM 3 was tough to run on anything below a datacenter GPU."
— amanharshx

这句话说出了很多工程师的心声。

圈子炸了,但不是因为性能

image

有意思的是,SAM 3.1发布后,AI圈讨论最热的不是那7倍的提速。

而是这句话:

"High-performance on smaller hardware"

网友评论直接点破:

"Nobody's talking about what it signals. 'High-performance on smaller hardware' is the most important phrase in this entire announcement. Meta isn't just improving a model. They're systematically dismantling the idea that frontier AI is only for big tech."

这个观点很尖锐,但确实戳中了一个趋势:

AI正在从"云端神坛"走向"寻常百姓家"。

以前做视频AI处理?没有A100、H100,没有几十万的服务器集群,想都别想。现在呢?一个本科生,一个独立开发者,一家中型创业公司——都有可能玩转以前只有大厂才敢想的东西。

"Object multiplexing on smaller hardware means video AI processing isn't locked behind enterprise budgets anymore. Students, indie creators, smaller teams - suddenly you're not watching from the sidelines."
— PetuniaByte

哪些人会爽到?

说几个具体的场景:

实时AR。 以前在手机上做多物体AR追踪,功耗和延迟根本扛不住。现在模型轻了、速度快了,功耗降了,手机端实时运行成为可能。

自动驾驶。 车辆需要实时解析周围场景——行人、车辆、交通标志……多物体跟踪是刚需。以前得用高功耗的域控制器,以后边缘设备可能就能跑。

体育分析。 一场足球赛几十个人满场飞,AI需要同时跟踪所有球员、裁判、球的位置。以前这是科研机构的专利,以后普通工作室也能做。

视频搜索。 把每一帧变成可检索的结构化数据——这意味着视频内容可以像文字一样被索引、被标签、被商业化。

"SAM 3.1, along with other models, can turn video frames into a structured data layer in which every frame becomes searchable, actionable, and monetizable."
— PrathapChowdry

想象力可以再大一点。

但等等,有个细节

SAM 3.1目前没有Hugging Face Transformers集成

这意味着什么?

门槛还是有的。你不能直接pip install然后几行代码跑起来,你得去GitHub看文档、配置环境、处理依赖。

对于纯新手来说,这依然不是一个"开箱即用"的玩具。

但对于有经验的工程师来说,这个开放程度已经足够了。

而且Model Checkpoint已经放在了Hugging Face上,代码仓库也开源了。Meta的态度很明确:我给你们工具,怎么用你们自己玩。

image

【MiniMax-M2.5锐评】:Meta这波不是在做慈善,是在给开源生态喂饼——饼画得挺大,但能不能吃到嘴里,得看你的工程能力跟不跟得上。

参考链接:
https://x.com/AIatMeta/status/2037582117375553924