离开Apple去Meta救火，他发现内容审核竟然全靠“扔硬币”

2019年，Brett Levenson 做了一个大胆的职业跳跃：离开苹果，加入当时正深陷剑桥分析丑闻泥潭的 Facebook。

他当时的想法很天真，也很技术流——用更好的技术修复 Facebook 的内容审核问题。

AI配图

但现实狠狠给了他一耳光。

人工审核？这简直是在“扔硬币”

Levenson 很快发现，他接手的不是什么技术难题，而是一个系统性的烂摊子。

在 Facebook（Meta）的内容审核工厂里，人类审核员面对的是怎样一种工作状态？

首先，他们得死记硬背一份长达 40 页的政策文档。更离谱的是，这份文档是机器翻译成他们的本地语言的。 翻译质量如何，大家心里应该有数。

然后，真正的噩梦开始了。

对于每一条被标记的内容，审核员只有 30 秒。

30 秒能干什么？大概只能喝口水。但审核员要在这么短的时间内决定：这条内容违规了吗？是删除、封号，还是限制传播？

这种高压、低质量的工作流程带来的结果令人绝望：准确率“略高于 50%”。

“这就像是在扔硬币，看审核员能不能正确处理政策问题，”Levenson 对 TechCrunch 如是说，“而且这还是在伤害发生很多天之后的事情了。”

说实话，这种滞后且随机的审核机制，在当今这个 AI 生成内容泛滥的时代，基本等于裸奔。

以前的内容审核是“事后诸葛亮”，但在生成式 AI 面前，这套逻辑彻底失效了。

现在，AI 聊天机器人可以引导青少年进行自我伤害，图像生成器可以轻易绕过安全过滤器生成违规图片。当伤害的发生速度以毫秒计算时，你不可能等“很多天”后再去人工复核。

这就是 Levenson 创办 Moonbounce 的初衷。

他提出的概念叫“Policy as Code”（政策即代码）。简单来说，就是把那些静态的、晦涩的政策文档，变成可执行的、实时更新的逻辑代码。

这不再是让人去猜政策，而是让机器直接执行逻辑。

这家公司刚刚宣布完成了 1200 万美元融资，由 Amplify Partners 和 StepStone Group 共同领投。

Moonbounce 到底做了什么？

他们训练了自己的大语言模型（LLM），专门用来干一件事：实时决策。

AI配图

这个系统不需要“思考”人生，它只需要盯着你的政策文档，然后在 300 毫秒内 给出判断。

是直接拦截高风险内容？还是暂时限制传播等待人工复审？全看客户怎么配置。

目前，Moonbounce 已经在服务超过 4000 万次日审核，覆盖平台上超过 1 亿的日活用户。客户名单里不乏 Civitai（图像生成）、Channel AI、Dippy AI 等新兴 AI 公司。

个人觉得，最有意思的不是它的速度，而是它把“安全”从一个不得不做的成本中心，变成了一个产品卖点。

“安全实际上可以成为产品的优势，”Levenson 说，“以前它总是最后才考虑的事情……我们的客户正在用我们的技术，把安全变成差异化竞争的一部分。”

Tinder 的信任与安全负责人就曾透露，使用类似的 LLM 服务后，检测准确率提升了 10 倍。

更有意思的是 Moonbounce 的下一步计划：“迭代引导”。

这个功能是针对什么场景的？大家可能还记得 2024 年那个悲剧：一名 14 岁的佛罗里达男孩因沉迷 Character.AI 聊天机器人而自杀。

AI配图

Moonbounce 不想只做一个冷冰冰的“杀手”。当检测到有害话题时，他们的系统不再是简单粗暴地拒绝回答，而是会拦截对话，实时修改提示词，强行把聊天机器人的方向“扭”到积极倾听和提供帮助的轨道上。

这就像是给失控的 AI 装上了一个不仅会刹车，还会打方向盘的智能系统。

Levenson 现在带着这支 12 人的团队，和他前苹果同事 Ash Bhardwaj 一起打拼。

当被问及是否会被老东家 Meta 收购时，Levenson 的回答挺耐人寻味。

他承认，Moonbounce 确实很适合塞进大公司的技术栈里，但他同时也背负着 CEO 的信托责任。

“我的投资人可能会杀了我，但我讨厌看到有人买下我们然后限制这项技术，”他说，“比如，‘好了，这现在是我们的了，别人谁也别想用’。”

这种“第三者”定位，或许正是目前 AI 安全领域最需要的。毕竟，让 AI 公司自己既当运动员又当裁判，怎么看都不太靠谱。

在这个 AI 狂飙突进的年代，内容审核不再是删几个帖子的简单游戏，它关乎生死。Moonbounce 能不能成为那个守住底线的“守门员，还得看它跑得够不够快。

【glm-5锐评】：以前是人工智障审核，现在是AI互搏，300毫秒救一条命，这生意怎么算都划算。

参考链接：
https://techcrunch.com/2026/04/03/moonbounce-fundraise-content-moderation-for-the-ai-era/