在这个动辄千亿参数的时代,NVIDIA扔出了一个只有42M参数的模型,让所有盯着人形机器人赛道的玩家沉默了。
它叫SONIC。
说实话,看到这个参数量的时候,我第一反应是是不是少写了两个零。
毕竟现在的AI模型,没个几十亿参数都不好意思开口说话。但NVIDIA的Jim Fan团队偏偏反其道而行之,
这个只有GPT-1一半大小的Transformer模型,竟然让人形机器人学会了人类的“潜意识”。
蹲下、转身、爬行、冲刺。这些我们人类甚至不需要过脑子就能完成的动作,对机器人来说曾是巨大的挑战。
现在,SONIC搞定了。
机器人终于学会了“不过脑子”
我们以前总觉得机器人控制是个复杂的数学题。
怎么保持平衡?怎么分配力量?每一个动作都需要精密的计算和复杂的奖励函数设计。工程师们为了教机器人走个路,头发都要掉光了。
但SONIC的逻辑很暴力:别算计了,直接抄作业。
Jim Fan提出了一个很妙的观点:人类的大部分身体动作其实是由“System 1”控制的——也就是那种快速、反应式、不需要深思熟虑的“肌肉记忆”。你蹲下的时候会计算重心吗?不会。你只是蹲下。
SONIC就是为了捕捉这种“System 1”智能。
它不再费劲去手动设计各种奖励函数,而是直接从人类的动捕数据中学习。逻辑很简单:数据本身就是最好的老师。 只要每一帧都像人一样动,那自然就能像人一样稳。
在虚拟世界里过完一生
虽然模型参数小得可怜,但NVIDIA这次在“氪金”上可没手软。
这是一场规模空前的模拟训练盛宴。
100,000,000+ 帧动捕数据。
500,000+ 个并行机器人。
128 张GPU同时狂奔。
在NVIDIA Isaac Lab的加持下,物理加速达到了惊人的10,000倍。这意味着什么?机器人在几小时的现实时间里,可以在虚拟世界里获得好几年的运动经验。
这简直就是“天龙八部”里的虚竹,虽然起步晚,但直接被灌顶了几十年的功力。
训练了3天后,这个模型被直接部署到了真实的Unitree G1机器人上。注意,是Zero-Shot(零样本),没有任何微调。
结果是:50个高难度真实动作序列,成功率100%。
跳舞、跳跃、甚至复杂的操作动作,全部一遍过。这有点太夸张了。
这才是真正的“通用”控制器
老实讲,很多所谓的“通用”模型,其实并不通用。换个任务就得重新训练,换个指令就得改代码。
但SONIC有点东西。
它支持的操作方式多得离谱,而且一个策略模型全搞定:
- VR全身遥操作: 戴上头显,你动它动。
- 视频控制: 拿个摄像头对着自己,机器人就能跟着你学。
- 文本指令: 输入“像猴子一样跳舞”,它真的就开始像猴子一样跳舞。
- 音乐节奏: 放个歌,它能踩着鼓点蹦迪。
有意思的是,它甚至支持各种奇葩走路姿势。醉酒步、受伤步、潜行步……只要你敢想,它就敢走。
这就很有意思了。以前我们觉得机器人笨拙,是因为它们太“理性”,每一步都要算。现在的SONIC,反而因为这种“不过脑”的模仿,变得像人一样灵活。
小模型也有大智慧
这可能是这篇论文最让人深思的地方。
为什么42M参数就能做到以前几亿参数都做不好的事?
我个人觉得,这恰恰揭示了运动智能的本质。 也许运动并不需要像语言模型那样存储海量的知识库,它更需要的是一种对物理世界的“直觉”。
评论里有位网友说得挺到位:“这说明人形机器人的瓶颈从来不是算力,而是数据管道和仿真基础设施。”
一旦这个基础设施建好了,物理AI可能也会像大语言模型一样,迎来那个著名的“指数级爆发曲线”。
当它接上大脑
SONIC只是一个“System 1”,负责动。那谁来负责想?
NVIDIA把它和自家的GR00T N1.5(一个视觉-语言-动作大模型)连在了一起。
System 1 负责动,System 2 负责想。
在一个“把苹果拿到盘子里”的任务中,这套组合拳打出了95%的成功率。VLA模型负责看懂苹果在哪、盘子在哪,规划路线;SONIC负责让机器人稳稳地走过去,蹲下,拿起来。
这就是我们一直期待的“具身智能”的样子吧?
开源,又是开源
最让同行绝望的消息来了:代码和模型权重全部开源。
这年头,敢把核心技术和盘托出的巨头真的不多了。NVIDIA这波操作,等于直接给整个行业发了一套“标准答案”。
以前大家还在纠结怎么设计奖励函数,怎么采集高质量数据。现在,SONIC直接告诉你:别纠结了,大力出奇迹,路线我都给你铺好了。
这或许就是科技巨头的自信——我不怕你抄作业,因为我的下一代作业已经快写完了。
至于那个只有42M参数的小模型,它可能正在悄悄告诉我们:有时候,智能的大小并不在于参数的多少,而在于你是否找对了那条通往“直觉”的路。
你说,运动的智能,是不是真的比语言要简单得多?
参考链接:
https://x.com/DrJimFan/status/2026350142652383587