如果你是个开发者,想做个懂语言的 App,哪怕是个独立程序员,也能在一下午搞定。

调用一下 GPT 的 API,核心智能层就有了,剩下的事就是套个壳。

但如果你想做一款机器人呢?

老实讲,这简直是噩梦。你得自己搞控制器、自己搭数据管道、自己从头训练模型……这就像是为了写个贪吃蛇,你得先从发明二进制开始。

这种"刀耕火种"的日子,可能快要到头了。

机器人还在"原始社会"挣扎

现在的机器人圈,其实挺尴尬的。

看看软件行业,大模型把"智能"变成了像自来水一样的东西,拧开就有。开发者根本不需要关心模型底层是怎么运作的,只管调用。

image

但在物理世界,机器人还在"原始社会"。

想做个能干活的机器人?没有现成的 API 给你用。每一个应用场景,都需要一帮工程师像搭积木一样,从零开始构建整个"物理智能栈"。

这不仅是钱的问题,更是技术门槛的问题。很多组件不仅是难做,甚至是开放性的研究难题。没有通用的配方,更没有现成的 API。

Physical Intelligence(PI)这家公司觉得,这事儿不对劲。他们认为,机器人也需要一个现成的"物理智能层"。

就像软件开发者调用 GPT 一样,未来的机器人专家,应该也能直接调用一个通用的"机器人大脑"。

这就是他们搞出 π 系列模型(π 0, π 0.5, π 0.6)的初衷。

在旧金山洗衣店,机器人学会了"手眼配合"

光说不练假把式。PI 找来了两家公司,把模型扔进了真实的"战场"。

第一家是 Weave,专门做家庭机器人。他们的切入点很刁钻——叠衣服。

别觉得这事儿简单。在机器人领域,叠衣服可是出了名的"硬骨头"。

衣服是软的,形状千奇百怪,布料还不一样。叠 T 恤和叠裤子完全是两码事。而且这还是个长序列任务,稍微错一个角,最后叠出来就是一团糟。

Weave 把机器人部署在了旧金山的一家自助洗衣店,真刀真枪地给客人叠衣服。之前用 π 0.5 的时候,机器人确实能叠,但总得让人在旁边盯着。

这次换上了 π 0.6,效果有点吓人。

数据显示,π 0.6 的自主性比 π 0.5 有了质的飞跃。

更有意思的是数据预训练的作用。当 PI 把 Weave 的数据加入到预训练中后,机器人的表现又上了一个台阶:

抓取失误减少了 42%,人工干预直接砍半,少了 50%。

这意味着什么?意味着机器人不再是那个笨手笨脚的"实习生",它开始像个熟练工了。## 仓库里的"隐形冠军",96.4% 的自主率

如果说叠衣服是精细活,那仓库打包就是高强度体力活。

另一家合作方 Ultra,干的是电商订单打包。这活儿以前根本没法自动化。

为什么?因为变数太大。商品形状不规则、包装袋软塌塌、还有各种流水线设备干扰。传统自动化那套死板的逻辑,在这里完全行不通。

Ultra 的机器人需要处理"长尾问题"——就是那些千奇百怪的突发状况。

在引入 PI 的模型后,Ultra 的机器人在真实客户现场跑了一整班次。结果是:96.4% 的自主运行时间。

这意味着在大部分时间里,机器人完全不需要人类插手。

π 0.6 在这个场景下展现出了惊人的"悟性"。

它不仅能更听话地执行指令(Prompt adherence),在面对边缘情况时,它甚至学会了"动脑子"。

image

比如遇到难搞的包裹,它不再像以前那样死磕或者报错,而是会尝试不同的策略去解决问题。

这种"从容",以前只在人类身上见过。

而且,随着 Ultra 的数据被加入预训练,机器人的打包吞吐量还在蹭蹭往上涨。## 不是算法赢了,是数据赢了

这事儿最让我觉得有意思的,其实不是那些漂亮的图表。

而是隐藏在这些进步背后的逻辑。

有一条评论说得特别到位:**"Fewer mistakes and higher throughput from incorporating data in pre-training" is the scaling signal hidden in plain sight.**翻成大白话就是:模型变强了,不是因为发明了什么牛叉的新算法,单纯是因为喂了更多的数据。

这简直就是大模型 Scaling Law 在机器人领域的复刻。

我们以前总觉得,机器人需要的是更精密的控制算法、更复杂的物理建模。

image

但 π 0.6 证明了一件事:大力出奇迹,在物理世界同样适用。

把真实场景的数据喂给模型,让它在预训练阶段就"见过世面",比什么巧妙的架构设计都管用。

这不禁让人联想到 GPT 的发展路径。从 GPT-1 到 GPT-4,本质上也是一场数据的胜利。## 当"物理智能"变成水电煤

说实话,看完这两个案例,我稍微有点激动。

这不仅仅是两个成功的商业案例,这更像是一个信号。

PI 他们的愿景很清晰:他们想做机器人界的 OpenAI。

他们想提供一个通用的"物理智能层",让做机器人应用的门槛,降低到做手机 App 的水平。

想象一下,未来如果你有个好点子,比如"帮老人捡药瓶的机器人"或者"自动整理书架的机器人",你不需要是个控制论专家。

你只需要买几个电机、装个摄像头,然后调用 π 系列模型的 API。核心的"大脑"已经在线上等着你了。

当然,现在离那个乌托邦还有距离。毕竟 π 0.6 还没到完美的程度,依然需要人类在环辅助。

但方向已经对了。

当物理世界的智能也能像代码一样被复制、被调用、被迭代时,真正的机器人爆发期,可能才刚刚开始。

至于这会不会是下一个"iPhone 时刻"?我个人觉得,这戏很大。

毕竟,谁不想真的拥有一台能帮你叠衣服的机器呢?

参考链接:
https://x.com/chelseabfinn/status/2026518827316687192