如果你是个开发者,想做个懂语言的 App,哪怕是个独立程序员,也能在一下午搞定。
调用一下 GPT 的 API,核心智能层就有了,剩下的事就是套个壳。
但如果你想做一款机器人呢?
老实讲,这简直是噩梦。你得自己搞控制器、自己搭数据管道、自己从头训练模型……这就像是为了写个贪吃蛇,你得先从发明二进制开始。
这种"刀耕火种"的日子,可能快要到头了。
机器人还在"原始社会"挣扎
现在的机器人圈,其实挺尴尬的。
看看软件行业,大模型把"智能"变成了像自来水一样的东西,拧开就有。开发者根本不需要关心模型底层是怎么运作的,只管调用。
但在物理世界,机器人还在"原始社会"。
想做个能干活的机器人?没有现成的 API 给你用。每一个应用场景,都需要一帮工程师像搭积木一样,从零开始构建整个"物理智能栈"。
这不仅是钱的问题,更是技术门槛的问题。很多组件不仅是难做,甚至是开放性的研究难题。没有通用的配方,更没有现成的 API。
Physical Intelligence(PI)这家公司觉得,这事儿不对劲。他们认为,机器人也需要一个现成的"物理智能层"。
就像软件开发者调用 GPT 一样,未来的机器人专家,应该也能直接调用一个通用的"机器人大脑"。
这就是他们搞出 π 系列模型(π 0, π 0.5, π 0.6)的初衷。
在旧金山洗衣店,机器人学会了"手眼配合"
光说不练假把式。PI 找来了两家公司,把模型扔进了真实的"战场"。
第一家是 Weave,专门做家庭机器人。他们的切入点很刁钻——叠衣服。
别觉得这事儿简单。在机器人领域,叠衣服可是出了名的"硬骨头"。
衣服是软的,形状千奇百怪,布料还不一样。叠 T 恤和叠裤子完全是两码事。而且这还是个长序列任务,稍微错一个角,最后叠出来就是一团糟。
Weave 把机器人部署在了旧金山的一家自助洗衣店,真刀真枪地给客人叠衣服。之前用 π 0.5 的时候,机器人确实能叠,但总得让人在旁边盯着。
这次换上了 π 0.6,效果有点吓人。
数据显示,π 0.6 的自主性比 π 0.5 有了质的飞跃。
更有意思的是数据预训练的作用。当 PI 把 Weave 的数据加入到预训练中后,机器人的表现又上了一个台阶:
抓取失误减少了 42%,人工干预直接砍半,少了 50%。
这意味着什么?意味着机器人不再是那个笨手笨脚的"实习生",它开始像个熟练工了。## 仓库里的"隐形冠军",96.4% 的自主率
如果说叠衣服是精细活,那仓库打包就是高强度体力活。
另一家合作方 Ultra,干的是电商订单打包。这活儿以前根本没法自动化。
为什么?因为变数太大。商品形状不规则、包装袋软塌塌、还有各种流水线设备干扰。传统自动化那套死板的逻辑,在这里完全行不通。
Ultra 的机器人需要处理"长尾问题"——就是那些千奇百怪的突发状况。
在引入 PI 的模型后,Ultra 的机器人在真实客户现场跑了一整班次。结果是:96.4% 的自主运行时间。
这意味着在大部分时间里,机器人完全不需要人类插手。
π 0.6 在这个场景下展现出了惊人的"悟性"。
它不仅能更听话地执行指令(Prompt adherence),在面对边缘情况时,它甚至学会了"动脑子"。
比如遇到难搞的包裹,它不再像以前那样死磕或者报错,而是会尝试不同的策略去解决问题。
这种"从容",以前只在人类身上见过。
而且,随着 Ultra 的数据被加入预训练,机器人的打包吞吐量还在蹭蹭往上涨。## 不是算法赢了,是数据赢了
这事儿最让我觉得有意思的,其实不是那些漂亮的图表。
而是隐藏在这些进步背后的逻辑。
有一条评论说得特别到位:**"Fewer mistakes and higher throughput from incorporating data in pre-training" is the scaling signal hidden in plain sight.**翻成大白话就是:模型变强了,不是因为发明了什么牛叉的新算法,单纯是因为喂了更多的数据。
这简直就是大模型 Scaling Law 在机器人领域的复刻。
我们以前总觉得,机器人需要的是更精密的控制算法、更复杂的物理建模。
但 π 0.6 证明了一件事:大力出奇迹,在物理世界同样适用。
把真实场景的数据喂给模型,让它在预训练阶段就"见过世面",比什么巧妙的架构设计都管用。
这不禁让人联想到 GPT 的发展路径。从 GPT-1 到 GPT-4,本质上也是一场数据的胜利。## 当"物理智能"变成水电煤
说实话,看完这两个案例,我稍微有点激动。
这不仅仅是两个成功的商业案例,这更像是一个信号。
PI 他们的愿景很清晰:他们想做机器人界的 OpenAI。
他们想提供一个通用的"物理智能层",让做机器人应用的门槛,降低到做手机 App 的水平。
想象一下,未来如果你有个好点子,比如"帮老人捡药瓶的机器人"或者"自动整理书架的机器人",你不需要是个控制论专家。
你只需要买几个电机、装个摄像头,然后调用 π 系列模型的 API。核心的"大脑"已经在线上等着你了。
当然,现在离那个乌托邦还有距离。毕竟 π 0.6 还没到完美的程度,依然需要人类在环辅助。
但方向已经对了。
当物理世界的智能也能像代码一样被复制、被调用、被迭代时,真正的机器人爆发期,可能才刚刚开始。
至于这会不会是下一个"iPhone 时刻"?我个人觉得,这戏很大。
毕竟,谁不想真的拥有一台能帮你叠衣服的机器呢?
参考链接:
https://x.com/chelseabfinn/status/2026518827316687192