你的数据架构,正在杀死凌晨三点的AI Agent

凌晨三点,你的AI Agent还在疯狂查询数据库。

它不需要喝咖啡,不会眼酸,也不会抱怨加班。但问题是:你的数据栈撑不住了

这是Google Cloud Next大会上,VP Andi Gutmans抛出的残酷现实。当人类下班睡觉,Agent开始7x24小时自主决策时,那个为"人类看报表"设计的古老架构,正在以肉眼可见的速度崩解。

Google的解法很激进:直接把数据云拆了重建,取名Agentic Data Cloud(智能体数据云)。

这不是升级,是基因突变

从"人类规模"到"智能体规模",只差一个认知断层

过去二十年,企业建数据仓库的核心KPI是什么?

让人看懂报表。BI仪表盘、季度预测、 reactive intelligence(被动智能)——人类看完数据,拍脑袋做决策。

AI配图

但现在,Agent要直接替企业"动手"了。它们不需要漂亮的柱状图,需要的是能立即执行的语义上下文

"我们要确保所有企业数据都能被AI激活,包括结构化和非结构化数据。这不仅仅是访问数据,而是真正理解数据。"

Gutmans这句话的潜台词很刺耳:你们现在那点数据治理水平,根本不够Agent塞牙缝的

传统数据目录怎么工作的?一群数据管家(Data Stewards)手动贴标签、建术语表、维护 glossary。这种"中世纪手工业"模式,在Agent每秒发起数百次查询的场景下,就是个笑话。

Google的Knowledge Catalog(知识目录)直接掀桌——用Agent来管理Agent。它自动从查询日志里推断业务逻辑,无需人工干预,原生覆盖BigQuery、Spanner、AlloyDB,还能联邦接入Collibra、Atlan、Datahub,甚至直接读懂SAP、Salesforce、ServiceNow的语义上下文。

数据治理终于从"人管数据"变成了"AI管AI"

跨云查询不收"买路财",Iceberg成了特洛伊木马

如果说Knowledge Catalog解决了"Agent懂不懂数据",那Cross-cloud Lakehouse(跨云湖仓)解决的就是"Agent能不能摸到数据"。

这里有个行业潜规则:云厂商的围墙花园

你的数据在AWS S3,分析工具在Google BigQuery?以前要么付天价出口费(egress fees)把数据搬来搬去,要么忍受API联邦查询的残废性能。

Google这次玩了个狠的——基于开源Apache Iceberg格式的存储层共享。通过Cross-Cloud Interconnect(跨云互联),BigQuery可以直接查询躺在AWS S3上的Iceberg表,零出口费,性能还能跟原生AWS数仓打平。

更骚的是双向联邦:Databricks Unity Catalog、Snowflake Polaris、AWS Glue Data Catalog,通过Iceberg REST Catalog标准全部打通。

AI配图

这意味着什么?

Agent可以无缝访问跨云数据,而企业不用再给云厂商交"数据过路费"。当Agent查询量呈指数级增长时,这笔隐性成本能省下的钱,可能够再养一个AI团队。

Gutmans毫不客气:"我们要把所有AI能力带到第三方数据集上,无论它存在哪朵云里。"

翻译一下:你的数据存在哪不重要,重要的是Agent能随时调用

程序员从"搬砖"变成"监工",只需一个IDE插件

前两大支柱解决了数据和上下文,但最颠覆认知的是第三根:Data Agent Kit(数据智能体工具包)。

它直接插进VS Code、Claude Code、Gemini CLI和Codex——不创造新界面,而是寄生在你现有的工作流里

传统数据工程师的一天:写Spark管道、调ETL任务、处理 schema drift,像搬砖一样把数据从A点搬到B点。

现在?你只需要描述结果

"我要一个清洗过的数据集用于模型训练","我要一个符合GDPR规则的转换逻辑"——Agent自动选择是用BigQuery、Lightning Engine for Spark还是Spanner来执行,然后生成生产级代码。

"客户受够了自建管道,他们现在更多是在审查模式,而不是写代码模式。"

Gutmans这句话可能让很多数据工程师脊背发凉。不是因为他们要失业,而是职业身份正在发生微妙转移从"代码创作者"变成"结果审核员"。

当Agent能写出比你更快的管道代码,人类的比较优势只剩下业务理解和质量把控

开放 vs 封闭:一场关于语义层的话语权战争

当然,Google不是唯一看到这块蛋糕的。

Databricks有Unity Catalog,Snowflake有Cortex,Microsoft Fabric也在狂补语义层。大家的共识是:Agent时代,语义上下文就是新的基础设施

分歧在于:谁来定义这些语义?

Databricks和Snowflake的策略是"在我这里建,在我这里管",把你锁进他们的生态。Google则高举开放大旗——联邦接入第三方语义模型,用Iceberg标准打破隔离。

这很像安卓 vs iOS的战争。Google在赌:当Agent成为新的"应用程序",开放架构终将吞噬封闭花园

AI配图

但说实话,这场战争才刚刚打响。企业现在面临的三重夹击很现实:

  1. 语义赤字手动维护的数据目录在Agent规模下会瞬间崩塌;
  2. 跨云税如果不转向Iceberg开放标准,Agent查询量的暴增会直接转化为云账单噩梦;
  3. 技能过时还在手写ETL管道的工程师,可能很快会发现自己的代码产出速度赶不上Agent的零头。

当Agent开始自己查数据,人类还剩多少"人味"?

Agentic Data Cloud的发布,标志着企业数据架构从"人类中心主义"正式转向"Agent本位制"。

这不是危言耸听。当Knowledge Catalog自动理解业务逻辑,当跨云查询像本地查询一样便宜,当数据工程师只需要说"我要什么"而不是写"怎么做"——我们其实在见证数据工程这个职业的范式转移

最有意思的是,这场变革的推手不是CTO的顶层设计,而是Agent永不停歇的查询请求。技术架构往往死于需求过载,而非规划不足。

所以,留给企业的选择题很简单:是现在就重建你的数据栈,适应Agent规模?还是等着凌晨三点的系统崩溃通知?

毕竟,Agent不会累,但你的账单会爆。

【锐评】:Google这招"用Agent养Agent"堪称阳谋——既当裁判又当运动员,还顺手把竞争对手的围墙花园拆了当砖用,数据工程师们该考虑转行做"AI监工"了。

参考链接:
https://venturebeat.com/data/the-modern-data-stack-was-built-for-humans-asking-questions-google-just-rebuilt-its-for-agents-taking-action