AI 被困在屏幕里太久了。
只会写诗、画图、写代码,但这都是“软”的。就在昨天,微软做了一个决定:把 AI 推进现实世界,给它装上双手,甚至——触觉。
微软研究院祭出了 Rho-alpha。
这不是又一个聊天机器人,这是微软首个基于自家 Phi 系列 VLM 的物理 AI 模型。它的目标很明确:双手机器人操作。以前机器人是瞎子、聋子,现在它们要开始“动手动脚”了。
不止是看,机器人终于有了“手感”
现在的 AI 模型大多只有“眼睛”,也就是视觉。
但 Rho-alpha 不一样,微软管它叫 VLA+。
多出来的那个“+”,才是真正的杀手锏——触觉和力反馈。
想象一下,你把插头插进插座,光靠眼睛看是不够的,你需要手感觉到阻力,甚至微调角度。
Rho-alpha 就在干这件事。> “我们正在尝试将触觉和力反馈纳入 Rho-alpha 的‘原生’输入模态中。”
微软展示了一段视频,机器人正在处理一个叫“BusyBox”的设备。
推按钮、拉电线、拨开关、拧旋钮。
这不仅仅是机械运动,机器人是在理解指令、感知阻力、调整动作。
甚至,它还会“偷师”。
在一个插电源插头的演示中,机器人的右手卡住了,怎么也插不进去。
这时候,人类操作员介入,用 3D 鼠标引导了一下。
Rho-alpha 立刻明白了:哦,原来要这样用力。这就是实时人类反馈。它不是死记硬背,而是在干活的过程中不断进化。
“我们要让机器人能更容易地适应动态情况,适应人类的偏好。”
数据不够?那就“伪造”出来
训练大模型需要海量数据,这谁都知道。
但在机器人领域,数据是硬伤。
你不可能让真机器人没日没夜地拆几百万次快递,那电机得烧坏多少个?
微软的 SPEAR 团队想了个办法:造假。
他们联手 NVIDIA,利用 Isaac Sim 模拟器生成合成数据。> “通过利用 Azure 上的 NVIDIA Isaac Sim 生成物理上准确的合成数据集,微软正在加速开发像 Rho-alpha 这样能掌握复杂操作任务的通用模型。”
华盛顿大学的 Abhishek Gupta 教授也点出了其中的门道:
“在许多场景下,远程操作是不现实或不可能的。我们正与微软合作,通过模拟和强化学习,用多样化的合成演示来丰富预训练数据集。”
简单说,就是在虚拟世界里把几百万次“失败”都试完了,真机器人上手就是老司机。这招“虚实结合”,直接解决了物理 AI 最大的拦路虎。
真正的野心:卖“铲子”而不是“金子”
如果你以为微软只是想造个酷炫的机器人 demo,那你就看浅了。
Rho-alpha 背后,藏着微软更大的算盘。
现在的机器人行业,大家都在搞“微调”。买个通用模型回来,修修补补。
微软说:这种玩法太 Low 了。
Rho-alpha 的工具链,允许合作伙伴在几乎任何训练阶段注入自己的数据。这意味着什么?
意味着你可以把 Rho-alpha 拆散了、重组了,变成专属于你硬件的定制模型。
正如一位敏锐的网友评论所说:
“真正的突破不是触觉集成,而是你们终于把训练流水线当成了产品,而不仅仅是模型权重。”
微软想做的,不是那个会跳舞的机器人,而是所有机器人的“大脑工厂”。
这是一场生态位的争夺。
“我们设想 Rho-alpha 及其训练流水线成为一个基础——帮助微软的机器人合作伙伴利用他们的数据,为他们的硬件创建强大的物理 AI 模型。”## Physical AI:AI 的下一场硬仗
AI 正在从“比特世界”杀向“原子世界”。
微软企业副总裁 Ashley Llorens 的话很有分量:
“物理 AI——代理 AI 与物理系统的相遇——正准备重新定义机器人技术,就像生成模型改变了语言和视觉处理一样。”
现在的竞争,早已不是谁的模型参数大了。
而是谁能把 AI 装进机器人的身体里,让它在乱七八糟的现实世界里活下来。
这需要系统,需要安全,需要集成。正如评论员 LeadByRene 所说:
“Physical AI 是‘仅作为软件的 AI’的终结。现在的难点不是智能,而是系统、安全以及与现实世界的整合。”
微软已经把 Rho-alpha 搬上了台面,甚至开放了 Research Early Access Program 申请。
机器人 OEM、集成商、操作员,都被拉进了这个局。
“我们还有很多电机要烧坏,还有很多触觉传感器要用光——这就是物理 AI 进步的方式。”
微软准备好了,你呢?
参考链接:
https://x.com/Andrey__Kolobov/status/2013952871952437526