机器人界的"GPT时刻"：叠衣服、打包快递，这群人把"物理智能"做成了API

如果你是个开发者，想做个懂语言的 App，哪怕是个独立程序员，也能在一下午搞定。

调用一下 GPT 的 API，核心智能层就有了，剩下的事就是套个壳。

但如果你想做一款机器人呢？

老实讲，这简直是噩梦。你得自己搞控制器、自己搭数据管道、自己从头训练模型……这就像是为了写个贪吃蛇，你得先从发明二进制开始。

这种"刀耕火种"的日子，可能快要到头了。

机器人还在"原始社会"挣扎

现在的机器人圈，其实挺尴尬的。

看看软件行业，大模型把"智能"变成了像自来水一样的东西，拧开就有。开发者根本不需要关心模型底层是怎么运作的，只管调用。

但在物理世界，机器人还在"原始社会"。

想做个能干活的机器人？没有现成的 API 给你用。每一个应用场景，都需要一帮工程师像搭积木一样，从零开始构建整个"物理智能栈"。

这不仅是钱的问题，更是技术门槛的问题。很多组件不仅是难做，甚至是开放性的研究难题。没有通用的配方，更没有现成的 API。

Physical Intelligence（PI）这家公司觉得，这事儿不对劲。他们认为，机器人也需要一个现成的"物理智能层"。

就像软件开发者调用 GPT 一样，未来的机器人专家，应该也能直接调用一个通用的"机器人大脑"。

这就是他们搞出 π 系列模型（π 0, π 0.5, π 0.6）的初衷。

在旧金山洗衣店，机器人学会了"手眼配合"

光说不练假把式。PI 找来了两家公司，把模型扔进了真实的"战场"。

第一家是 Weave，专门做家庭机器人。他们的切入点很刁钻——叠衣服。

别觉得这事儿简单。在机器人领域，叠衣服可是出了名的"硬骨头"。

衣服是软的，形状千奇百怪，布料还不一样。叠 T 恤和叠裤子完全是两码事。而且这还是个长序列任务，稍微错一个角，最后叠出来就是一团糟。

Weave 把机器人部署在了旧金山的一家自助洗衣店，真刀真枪地给客人叠衣服。之前用 π 0.5 的时候，机器人确实能叠，但总得让人在旁边盯着。

这次换上了 π 0.6，效果有点吓人。

数据显示，π 0.6 的自主性比 π 0.5 有了质的飞跃。

更有意思的是数据预训练的作用。当 PI 把 Weave 的数据加入到预训练中后，机器人的表现又上了一个台阶：

抓取失误减少了 42%，人工干预直接砍半，少了 50%。

这意味着什么？意味着机器人不再是那个笨手笨脚的"实习生"，它开始像个熟练工了。## 仓库里的"隐形冠军"，96.4% 的自主率

如果说叠衣服是精细活，那仓库打包就是高强度体力活。

另一家合作方 Ultra，干的是电商订单打包。这活儿以前根本没法自动化。

为什么？因为变数太大。商品形状不规则、包装袋软塌塌、还有各种流水线设备干扰。传统自动化那套死板的逻辑，在这里完全行不通。

Ultra 的机器人需要处理"长尾问题"——就是那些千奇百怪的突发状况。

在引入 PI 的模型后，Ultra 的机器人在真实客户现场跑了一整班次。结果是：96.4% 的自主运行时间。

这意味着在大部分时间里，机器人完全不需要人类插手。

π 0.6 在这个场景下展现出了惊人的"悟性"。

它不仅能更听话地执行指令（Prompt adherence），在面对边缘情况时，它甚至学会了"动脑子"。

比如遇到难搞的包裹，它不再像以前那样死磕或者报错，而是会尝试不同的策略去解决问题。

这种"从容"，以前只在人类身上见过。

而且，随着 Ultra 的数据被加入预训练，机器人的打包吞吐量还在蹭蹭往上涨。## 不是算法赢了，是数据赢了

这事儿最让我觉得有意思的，其实不是那些漂亮的图表。

而是隐藏在这些进步背后的逻辑。

有一条评论说得特别到位：**"Fewer mistakes and higher throughput from incorporating data in pre-training" is the scaling signal hidden in plain sight.**翻成大白话就是：模型变强了，不是因为发明了什么牛叉的新算法，单纯是因为喂了更多的数据。

这简直就是大模型 Scaling Law 在机器人领域的复刻。

我们以前总觉得，机器人需要的是更精密的控制算法、更复杂的物理建模。

但 π 0.6 证明了一件事：大力出奇迹，在物理世界同样适用。

把真实场景的数据喂给模型，让它在预训练阶段就"见过世面"，比什么巧妙的架构设计都管用。

这不禁让人联想到 GPT 的发展路径。从 GPT-1 到 GPT-4，本质上也是一场数据的胜利。## 当"物理智能"变成水电煤

说实话，看完这两个案例，我稍微有点激动。

这不仅仅是两个成功的商业案例，这更像是一个信号。

PI 他们的愿景很清晰：他们想做机器人界的 OpenAI。

他们想提供一个通用的"物理智能层"，让做机器人应用的门槛，降低到做手机 App 的水平。

想象一下，未来如果你有个好点子，比如"帮老人捡药瓶的机器人"或者"自动整理书架的机器人"，你不需要是个控制论专家。

你只需要买几个电机、装个摄像头，然后调用 π 系列模型的 API。核心的"大脑"已经在线上等着你了。

当然，现在离那个乌托邦还有距离。毕竟 π 0.6 还没到完美的程度，依然需要人类在环辅助。

但方向已经对了。

当物理世界的智能也能像代码一样被复制、被调用、被迭代时，真正的机器人爆发期，可能才刚刚开始。

至于这会不会是下一个"iPhone 时刻"？我个人觉得，这戏很大。

毕竟，谁不想真的拥有一台能帮你叠衣服的机器呢？

参考链接：
https://x.com/chelseabfinn/status/2026518827316687192