社交媒体上那些炫酷的机器人视频,看看就好。
不管是叠衣服、整理房间还是做咖啡,你看到的往往是剪辑后的完美瞬间,甚至是有人在后台遥操作。真实的机器人研发,充满了失败、崩溃和无数次推倒重来。
最近,Hugging Face 的 LeRobot 团队干了件实在事。他们搞了个"Unfolding Robotics"项目,不仅开源了能叠衣服的双臂机器人,还把那些不光彩的失败数据、烧掉的 5000 多 GPU 小时、以及踩过的坑全抖了出来。
说实话,这才是行业最缺的真实样本。
硬件篇:120欧元的“丐版”设备赢了
要做叠衣服机器人,先得有个机器人。
LeRobot 团队选用了双臂 OpenArm,这是一种开源的人形机械臂。但有意思的是,在如何控制机器人这个问题上,他们经历了一次"真香"定律。
一开始,他们用的是全尺寸的 OpenArm 作为主手(遥操作端),逻辑很顺:主手和从手机械结构一样,操作起来肯定最直观。
结果打脸了。全尺寸主手惯性太大,操作员在那推拉拽拽,累得半死,动作还磨磨唧唧。叠衣服这种精细活,需要的是快准狠。
团队最后搞出了个 OpenArm Mini。这玩意儿是个基于舵机的 3D 打印小玩意儿,成本只要 120 欧元。虽然看着寒碜,但它惯性小、反应快,还能适配不同身高体型的操作员。
有时候,便宜不仅意味着性价比,还意味着更好的解决方案。他们甚至还配了个 USB 脚踏板来控制录制开关——既然双手都在忙活,那就用脚呗。
数据篇:131小时里大部分是“垃圾”
硬件搭好了,最痛苦的环节来了:喂料。
叠衣服不像下围棋,布料是典型的"可变形物体",状态空间近乎无限。仿真环境练不出真本事,只能靠真机遥操作。
团队一口气上了 8 套设备,找了 25 种不同的 T 恤,折腾了 131 个小时,采集了 5688 段视频。
但这有个巨大的坑:人操作机器人是需要练级的。
刚开始采集的数据,质量惨不忍睹。操作员手抖、犹豫、抓取失败,这些"坏习惯"全被机器人学去了。团队坦言,早期的数据不仅没用,甚至有毒——模型会学会那些犹豫和错误的动作。
这时候,你面临一个两难:继续用这些烂数据,模型会学坏;扔掉重来,成本谁受得了?
老实讲,这可能是整个项目里最反直觉的一点。大家都觉得数据越多越好,但在机器人学习里,坏数据还不如没数据。
反转篇:删掉80%的数据,成功率暴涨
故事的高潮来了,这也是整篇报告里最打脸算法崇拜者的部分。
团队先用全量数据(5688 段)训练了模型。用了最先进的 π0 和 π0.5 架构,又是流匹配又是 VLA,一顿操作猛如虎。
结果呢?
Level 1(叠铺好的衣服)成功率 40%,Level 2(叠乱成一团的衣服)成功率直接挂零。机器人像个帕金森患者,动作慢吞吞,叠出来的衣服皱皱巴巴。
这时候,算法已经调不动了。团队做了一个大胆的决定:洗数据。
他们开发了一个叫 SARM 的奖励模型,专门给数据打分。把那些犹豫的、策略混乱的、结果不好的片段统统剔除。最后,全量数据被砍到了 1200 段——只剩下原来的五分之一。
然后,奇迹发生了。
还是那个模型,还是那个训练配方,仅仅换成了这 1200 段精选数据,成功率直接飙升到了 90%。Level 1 满分通过,Level 2 也达到了 80%。
这说明了什么?
在具身智能领域,算力可以堆,模型可以借,但高质量的数据才是真正的护城河。个人觉得,这给那些迷信 Scaling Law 的人泼了一盆冷水——盲目堆量,在物理世界里行不通。
技术篇:给机器人装上“进度条”
除了洗数据,团队还搞了几个挺有意思的技术创新,虽然听起来有点"补丁"味。
一个是 RTC(实时组块)。以前的机器人动一下、停一下,像个卡顿的视频。RTC 让机器人在执行当前动作时,就开始算下一个动作,实现了无缝衔接。
另一个是 DAgger(人在回路)。简单说就是,机器人自己先跑,卡住了人就接管一下,把纠正的过程录下来再喂回去。这招在攻克 Level 2 难关时特别管用。
还有一个细节:他们没用什么昂贵的力传感器、深度相机,就靠三个普通摄像头和关节编码器,硬是做到了 90% 的成功率。这再次印证了那个观点:限制机器人落地的,往往不是传感器不够贵,而是脑子不够好使。
结语
Hugging Face 这次开源的不仅是代码,更是一份避坑指南。
他们证明了,在机器人领域,算法的进步固然重要,但数据质量才是那个决定性的变量。那些被删掉的 80% 的数据,就像是我们走过的弯路——虽然痛苦,但只有删掉它们,才能看见真相。
这或许给所有做具身智能的创业公司提了个醒:别光顾着卷模型参数,先把你们的数据洗干净再说。
【锐评】:
算法工程师引以为傲的模型架构,在高质量数据面前竟然如此苍白,这大概是 AI 圈最讽刺也最清醒的一课。
参考链接:
https://x.com/LeRobotHF/status/2041542790610297259