OpenAI这次没发GPT-5,也没搞什么惊天动地的Sora更新,而是悄悄丢出了一个只有1.5B参数的小模型。

说实话,这操作有点反常。

AI配图

在这个动辄千亿参数、万卡集群的时代,OpenAI竟然回头去搞了一个能在笔记本浏览器里跑的小玩意儿?而且一上来就给了Apache 2.0开源许可。

这不是"降维打击",这是在给整个AI数据清洗行业"上眼药"。

不做生成做"清洁工",这很OpenAI

如果你还以为OpenAI只会造"神",那这次你可能要看走了眼。

这个名为 privacy-filter 的模型,压根就不是用来写诗画图的。它的任务只有一个:在万亿级的数据海洋里,精准揪出那些不该出现的隐私信息。

根据Hugging Face上的模型卡介绍,这是一个双向Token分类模型,专门用于检测和掩盖文本中的个人身份信息(PII)。

有意思的是,它并非生来就是做这个的。

它先是经历了自回归预训练,也就是像GPT那样学会"说话",然后被"魔改"成了一个分类器。OpenAI把原本生成文本的"脑袋"砍掉,换成了一个专门识别隐私标签的"脑袋"。

这就像是把一个满腹经文的秀才,改行送去做了安检员——不让你写文章了,你就负责盯着每个人看有没有带违禁品。

小身材,大胃口:128k上下文的"怪物"

别看它只有1.5B的总参数,实际激活参数更是只有50M

这是什么概念?这意味着它不仅能在笔记本上跑,甚至能在你的Web浏览器里流畅运行。但让人掉下巴的是,这么小的模型,竟然撑起了128,000 tokens的上下文窗口。

推主@eliebakouch都忍不住感叹:在这么小的模型上保持128k上下文,确实有点东西。

它是怎么做到的?

AI配图

架构上,这是个典型的"精打细算"型选手:8个Transformer块,128个专家的稀疏混合专家架构,每次只路由给Top-4专家。这就好比一个公司虽然人多,但每次开会只叫相关的那几个人,省电又高效。

而且,它不是像传统大模型那样一个字一个字地"生成",而是一次前向传播就把整段文字标记完。

效率直接拉满。

这也解释了为什么OpenAI敢说它能用于"高通量数据清洗工作流"。毕竟,谁也不想为了洗个数据,还得专门搭个几千卡集群。

评论区里的"翻车"现场:城市名也是人名?

模型虽好,但真有那么神吗?

在科技圈,"发布"和"落地"往往是两码事。评论区里,各路大神已经开始拿着放大镜找茬了。

一位叫 raspbfox 的网友直接贴出了实测结果,有点尴尬:这模型有点"宁可错杀一千",连历史文本里的城市名都给当成"人名"过滤掉了。

更离谱的是,如果你把密码或者密钥用纯文本数字的形式写出来,它反而视而不见。

这就很讽刺了。

如果连基本的误杀率都控制不好,那这种"隐私清洗"可能会把原本高质量的数据洗成"白开水"。正如网友 roshanramani007 犀利点评:我们竟然在庆祝一个模型足够便宜,能告诉我们哪些数据不能用,这"好"的标准是不是有点太低了?

还有更狠的。

网友 h1kz0r 直接甩出了一组数据:他们测了39个大模型,涵盖5类敏感数据。结论很打脸——大多数模型至少有一项盲区。凭证检测不出PII,PII检测不出PHI(受保护的健康信息)。

换句话说,过了评测不等于这就安全了。

暗中赢家:清洗万亿数据的"铲子"

AI配图

虽然吐槽声不少,但个人觉得,OpenAI这步棋走得挺精。

大家都在盯着怎么造更强的模型,却忽略了"怎么喂模型"这个老大难问题。现在的AI公司,谁手里没有几万亿token的语料?但这里面混杂了多少隐私数据、敏感信息?

以前想洗这些数据,要么靠昂贵的众包人工,要么靠笨拙的正则匹配。

现在OpenAI开源这个"铲子",意图很明显:让全世界帮它洗数据。

这不仅仅是个工具,更是一个信号。随着大模型竞争进入深水区,数据质量的重要性已经超过了数量。如何低成本、高效率地清洗出"干净"的数据,已经成为下一代模型突破的关键。

OpenAI把这套工具放出来,Apache 2.0许可,随便改、随便用。

这看似是"做慈善",实则是把数据清洗的行业标准给立起来了。以后大家都用这套东西洗数据,那OpenAI是不是又成了规则的制定者?

而且,模型卡里那句"在万亿规模数据上低成本过滤隐私信息",细思极恐。这不就是OpenAI自己在用的生产线吗?

锐评:

OpenAI开源小模型做"数据清洁工",看似技术扶贫,实则是给自家万亿级语料库找了个免费的外包测试团队,这波算盘打得真响。

参考链接:
https://x.com/eliebakouch/status/2046979020890198503