以前,OpenAI的财务分析师想查个数据,简直是场灾难。

要在70,000个数据集里大海捞针,写SQL,查表结构,验证数据……一顿操作猛如虎,几个小时就没了。现在?同样的分析师,在Slack里敲一行大白话,几分钟就能拿到一张画好的图表。

AI配图

这听起来像是那种“别人家的公司”的故事,但这次是OpenAI自己。

更离谱的是,这个把全公司数据效率提升几倍的工具,居然只由两名工程师花了三个月就做出来了。而且,这系统70%的代码是AI自己写的。

这大概是目前企业级AI应用最激进、也最成功的一次实战。

一个人肉API的悲惨往事

说实话,OpenAI的数据规模大得吓人。

他们的数据平台横跨600 PB的数据量,涵盖了70,000个数据集。对于数据团队来说,这简直就是维护噩梦。OpenAI的数据基础设施负责人Emma Tang在接受VentureBeat采访时,毫不避讳地描述了这种痛苦。

哪怕只是找一张正确的表,有时都要耗掉数据科学家几个小时。

Tang的团队服务于全公司5000名员工,其中有4000人每天都在用他们提供的工具。这意味着什么?意味着数据团队基本就是全公司的“人肉API”。

以前,如果你想做一个跨维度的分析——比如对比不同地区和客户群体的收入——你得懂技术、懂表结构、懂SQL。现在,这个门槛被彻底踩碎了。

AI配图

不管你是做增长的、做产品的,还是完全不懂代码的行政人员,只要会打字,就能做复杂分析。Tang说,这不仅是节省时间的问题,更是赋予了很多人以前根本无法拥有的能力。

教AI“慢思考”,治好它的“自信病”

很有意思的是,OpenAI在构建这个Agent时,遇到的最大难题不是模型不够聪明,而是模型太自信。

这大概是所有用过大模型的人的共同感受:它总爱瞎编,还编得一脸笃定。

Tang坦言,这是个巨大的问题。模型经常会自信满满地说:“哦,这张表就是你要的”,然后基于错误的表开始一顿分析猛如虎,最后给你一个完全错误的结论。

怎么治?OpenAI的工程师们用Prompt给AI上了一课——“慢思考”。

他们强制Agent在干活前,必须在一个“发现阶段”多待一会儿。Prompt里的指令简直像是在教一个刚入职的实习生:

“在你冲上去分析之前,我真的希望你多做一点验证,确认这是不是对的表。请多查几个来源,别急着出结果。”

这招很管用。团队发现,AI在发现阶段花的时间越多,结果就越准。

AI配图

更有意思的是,他们还发现了一个反直觉的现象:给AI的上下文不是越多越好。现在的流行趋势是RAG(检索增强生成),恨不得把所有资料都喂给AI。但OpenAI的评测发现,给的资料越少、越精准,效果反而越好。

“少即是多”,在AI时代居然依然成立。

Codex半夜偷偷干活,这才是最可怕的

这个Agent最硬核的技术创新,其实藏在后台。

在70,000个数据集里找表,是最大的技术挑战。为了解决这个问题,OpenAI动用了自家的编程AI——Codex。

Codex在这个系统里身兼三职:

  1. 用户通过它访问Agent;
  2. 它写了Agent 70%的代码;
  3. 最绝的是,它每晚都在“偷家”。

OpenAI设计了一个异步流程:每天,Codex都会去扫描那些重要的数据表,分析底层的管道代码,搞清楚这张表的上游下游是谁、归谁管、颗粒度是多少、跟哪些表能关联。

这被称为“Codex富集”。相当于Codex每天晚上不睡觉,把公司的数据地图重新画了一遍。等你第二天醒来问问题时,它早就把路探好了。

这套机制让Agent能够精准地理解业务概念。当你问“收入”时,它不会瞎猜,而是去向量数据库里找Codex早就标记好的“收入表”。

说实话,这种让AI自己维护数据地图的思路,真的很OpenAI。

那个“不性感”的真相

现在全网都在吹AI Agent,好像有了模型就能搞定一切。

但Tang泼了一盆冷水。她说得很直白:

“这听起来不性感,但数据治理对于数据Agent能否良好运行至关重要。”

模型再强,如果你的数据是一团乱麻,Agent也只能输出垃圾。你的数据得足够干净,有足够的标注,还得有个真理来源。

这其实是个挺残酷的现实:AI越进化,对企业底层数据基建的要求就越高。基础设施没搭好,想用AI提效?做梦。

所以,Tang的警告很有分量:那些用了这类工具的公司,进步会非常快;那些不用的,会迅速掉队。

OpenAI的小算盘:我不卖工具,我卖铲子

看到这里,你可能会问:这工具这么好用,OpenAI啥时候把它包装成产品卖给我?

答案是:不卖

OpenAI明确表示,没有计划将这个内部数据Agent产品化。他们的策略是“授人以渔”。

Tang强调,他们用的所有API——Responses API、Evals API,包括底层的GPT-5.2模型——外部企业全都能用。他们甚至拉来了麦肯锡、BCG、埃森哲这些咨询巨头,帮企业去搭建类似的平台。

OpenAI不想做具体的SaaS应用生意,他们只想卖铲子。而且现在的铲子已经卖得很好了——Codex现在的周活用户已经超过100万,OpenAI内部95%的工程师都在用它,所有代码合并前都要过Codex这一关。

Tang甚至说,Codex现在都不算个编程工具了。她看到非技术团队用它整理思路、做PPT、写日报。一位工程经理每天早上让Codex复盘笔记、拉Slack消息、找重点,甚至帮忙回消息。

“它在很多方面真的在代表你行动。”

这就有点赛博朋克那味儿了。

结语

OpenAI这波操作,不仅展示了一个“全员AI化”的未来图景,也赤裸裸地揭示了企业AI转型的瓶颈。

不是模型不够强,是你的数据不够好;不是工具不够多,是你没人敢像OpenAI这样,让两个工程师、用三个月时间、靠AI写七成代码,去赌一个全公司级的核心系统。

Tang最后说了一句意味深长的话:公司能做到的事情确实加速了,但这依然赶不上我们的野心,连一点点都没有。

这大概就是AI时代的常态:你跑得再快,也永远觉得慢。

参考链接:
https://venturebeat.com/technology/openais-ai-data-agent-built-by-two-engineers-now-serves-4-000-employees-and