AI 发展被 RLHF 卡了脖子？来看看这个时代的最新玩法

我们都在谈论 AI 多么强大，甚至担心它取代人类，

但在这场轰轰烈烈的 AI 繁荣背后，最核心的引擎——训练过程，竟然还顽固地依赖着人类的双手。

甚至可以说，它被人类“卡”住了脖子。

这听起来像是个冷笑话，但却是 AI 实验室里最真实的痛点。

为了解决这个问题，一家叫 Rapidata 的初创公司刚拿了 850 万美元的种子轮融资，他们干的事儿有点意思：

把全球 2000 万玩消消乐和学外语的用户，变成了 AI 的兼职老师。

这不仅仅是效率的提升，这简直是把 AI 的训练周期从季度表拉到了秒表。

酒桌上诞生的“人肉云”

Rapidata 的故事不是在硅谷的玻璃会议室里开始的，而是在苏黎世的一张酒桌上。

创始人 Jason Corkill 出自 ETH Zurich，主攻机器人和计算机视觉。

搞 AI 的工程师应该都经历过那种绝望：代码跑通了，算力也够了，模型开始训练了，然后停住了。

因为模型需要人类反馈（RLHF）。

这就意味着你要去找外包商，把数据发过去，然后等。等几个星期，甚至几个月。

"总是当你需要大规模人工标注时，你的项目就被迫停摆了，" Corkill 回忆道，"在那之前，你还可以通过熬夜来推进进度，但一旦涉及到人，你就只能干等着。"

这种等待在算力指数级爆炸的今天，显得格格不入。GPU 飞速旋转，人类却在慢吞吞地点鼠标。

Corkill 和他的联合创始人在喝了几杯啤酒后想通了一件事：既然算力可以像水电一样即取即用，为什么人类的判断不能也变成一种基础设施？

于是，Rapidata 诞生了。

用看广告的时间训练 AI

Rapidata 怎么解决人手问题？招人？太慢了。

他们玩了一手“移花接木”。既然大家讨厌看手机弹窗广告，那不如给个选择：

你是看这 30 秒无聊的广告，还是花几秒钟帮 AI 判定一下这张图好不好看？

有意思的是，根据他们的数据，50% 到 60% 的用户选择了干活。

Rapidata 把这些微小的任务嵌入了像 Duolingo（多邻国）和 Candy Crush（糖果传奇）这样拥有海量用户的应用中，简直就是把全球的注意力经济给劫持了。

这带来几个惊人的数字：

触达范围： 1500 万到 2000 万用户。
并发能力： 单小时能处理 150 万次人工标注。
速度： 以前需要几周的反馈循环，现在缩短到几小时甚至几分钟。

这是对传统数据标注行业的降维打击。

以前那些被媒体诟病为“低薪、剥削”的离散外包模式，在这个庞大的“人肉云”面前，显得既笨重又过时。

把人类直接插进 GPU

Rapidata 最牛逼的地方不在于人多，而在于它把人类“接”进了 GPU。

这听起来不太直观，咱们捋一捋。

传统的 RLHF 是“批处理”的：

模型训练 -> 停下来 -> 发数据给人类 -> 等人类标好 -> 再训练。

这就像开车，每走一百米就要熄火下车问个路。

但 Rapidata 的网络太快了，快到可以支持“在线 RLHF”。

"我们可以直接在 GPU 的处理过程中介入，" Corkill 解释道，"GPU 算出一个输出，立刻向我们请求，‘我需要一个人来看看这个’，我们马上给回答案，然后模型立刻应用这个损失修正。"

现在，他们的平台上大概每分钟有 5500 人在给正在数千张 GPU 上跑的模型提供实时反馈。

这解决了一个大问题：防止“奖励模型黑客攻击”。

以前是两个 AI 模型互相比划，容易陷入死循环或者互相欺骗。现在好了，有个“真人”实时在旁边盯着，想作弊？没门。

不仅要“对”，还要有“味儿”

AI 发展到现在，光“事实正确”已经不够了。

你肯定收到过那种一眼就能看出是 AI 写的邮件，语法完美，但就是透着一股子“机器味儿”。这就是缺乏“品味”训练。

Rapidata 的模式特别适合这种主观的、基于“品味”的判断。

比如：“这两个语音合成，哪个听起来更真诚？”或者“这两段摘要，哪个更像专业人士写的？”

Lily Clifford 是一家语音 AI 公司 Rime 的 CEO，她对此深有体会。以前她想做这种测试，得满世界找供应商，一个国家一个国家地拼凑，根本没法规模化。

现在呢？通过 Rapidata，她可以精准触达瑞典、塞尔维亚或者美国的特定人群，几天内就能看到模型在真实工作流中的表现。

"大多数模型在事实上是正确的，但你能闻出 AI 邮件的味道，" Corkill 说，"你需要人类反馈来解决这个问题。"

当 AI 开始“雇佣”人类

这事儿想深了，挺有意思。

现在 Rapidata 的客户还是硅谷的 AI 实验室，但 Corkill 眼里的未来是“人类使用”。

啥意思？就是以后不是人类工程师在雇佣人类标注员，而是 AI 模型自己成为客户。

想象一下：一个设计汽车的 AI，它在设计一款针对法国市场的车型。它可以直接调用 Rapidata 的 API，问 25000 个法国人：“嘿，觉得这个流线型咋样？”拿到反馈后，AI 自己在几小时内就改了设计。

这就是把人类判断变成了一种可编程的、全球分布的 API。

社会在变，人的口味也在变。如果 AI 只是模拟几个月前的社会数据，那它很快就过时了。Rapidata 想做的，就是硅基智能和碳基社会之间的那个“实时插头”。

拿了 850 万美元之后，Corkill 打算加速推进这个计划。

以前我们总担心 AI 会不会因为太强而失控，现在看来，在很长一段时间里，AI 想要变得更像人，还是得乖乖排队等我们人类的“点赞”。

参考链接：
https://venturebeat.com/data/rapidata-emerges-to-shorten-ai-model-development-cycles-from-months-to-days