你的数据架构,正在杀死凌晨三点的AI Agent
凌晨三点,你的AI Agent还在疯狂查询数据库。
它不需要喝咖啡,不会眼酸,也不会抱怨加班。但问题是:你的数据栈撑不住了。
这是Google Cloud Next大会上,VP Andi Gutmans抛出的残酷现实。当人类下班睡觉,Agent开始7x24小时自主决策时,那个为"人类看报表"设计的古老架构,正在以肉眼可见的速度崩解。
Google的解法很激进:直接把数据云拆了重建,取名Agentic Data Cloud(智能体数据云)。
这不是升级,是基因突变。
从"人类规模"到"智能体规模",只差一个认知断层
过去二十年,企业建数据仓库的核心KPI是什么?
让人看懂报表。BI仪表盘、季度预测、 reactive intelligence(被动智能)——人类看完数据,拍脑袋做决策。
但现在,Agent要直接替企业"动手"了。它们不需要漂亮的柱状图,需要的是能立即执行的语义上下文。
"我们要确保所有企业数据都能被AI激活,包括结构化和非结构化数据。这不仅仅是访问数据,而是真正理解数据。"
Gutmans这句话的潜台词很刺耳:你们现在那点数据治理水平,根本不够Agent塞牙缝的。
传统数据目录怎么工作的?一群数据管家(Data Stewards)手动贴标签、建术语表、维护 glossary。这种"中世纪手工业"模式,在Agent每秒发起数百次查询的场景下,就是个笑话。
Google的Knowledge Catalog(知识目录)直接掀桌——用Agent来管理Agent。它自动从查询日志里推断业务逻辑,无需人工干预,原生覆盖BigQuery、Spanner、AlloyDB,还能联邦接入Collibra、Atlan、Datahub,甚至直接读懂SAP、Salesforce、ServiceNow的语义上下文。
数据治理终于从"人管数据"变成了"AI管AI"。
跨云查询不收"买路财",Iceberg成了特洛伊木马
如果说Knowledge Catalog解决了"Agent懂不懂数据",那Cross-cloud Lakehouse(跨云湖仓)解决的就是"Agent能不能摸到数据"。
这里有个行业潜规则:云厂商的围墙花园。
你的数据在AWS S3,分析工具在Google BigQuery?以前要么付天价出口费(egress fees)把数据搬来搬去,要么忍受API联邦查询的残废性能。
Google这次玩了个狠的——基于开源Apache Iceberg格式的存储层共享。通过Cross-Cloud Interconnect(跨云互联),BigQuery可以直接查询躺在AWS S3上的Iceberg表,零出口费,性能还能跟原生AWS数仓打平。
更骚的是双向联邦:Databricks Unity Catalog、Snowflake Polaris、AWS Glue Data Catalog,通过Iceberg REST Catalog标准全部打通。
这意味着什么?
Agent可以无缝访问跨云数据,而企业不用再给云厂商交"数据过路费"。当Agent查询量呈指数级增长时,这笔隐性成本能省下的钱,可能够再养一个AI团队。
Gutmans毫不客气:"我们要把所有AI能力带到第三方数据集上,无论它存在哪朵云里。"
翻译一下:你的数据存在哪不重要,重要的是Agent能随时调用。
程序员从"搬砖"变成"监工",只需一个IDE插件
前两大支柱解决了数据和上下文,但最颠覆认知的是第三根:Data Agent Kit(数据智能体工具包)。
它直接插进VS Code、Claude Code、Gemini CLI和Codex——不创造新界面,而是寄生在你现有的工作流里。
传统数据工程师的一天:写Spark管道、调ETL任务、处理 schema drift,像搬砖一样把数据从A点搬到B点。
现在?你只需要描述结果。
"我要一个清洗过的数据集用于模型训练","我要一个符合GDPR规则的转换逻辑"——Agent自动选择是用BigQuery、Lightning Engine for Spark还是Spanner来执行,然后生成生产级代码。
"客户受够了自建管道,他们现在更多是在审查模式,而不是写代码模式。"
Gutmans这句话可能让很多数据工程师脊背发凉。不是因为他们要失业,而是职业身份正在发生微妙转移:从"代码创作者"变成"结果审核员"。
当Agent能写出比你更快的管道代码,人类的比较优势只剩下业务理解和质量把控。
开放 vs 封闭:一场关于语义层的话语权战争
当然,Google不是唯一看到这块蛋糕的。
Databricks有Unity Catalog,Snowflake有Cortex,Microsoft Fabric也在狂补语义层。大家的共识是:Agent时代,语义上下文就是新的基础设施。
分歧在于:谁来定义这些语义?
Databricks和Snowflake的策略是"在我这里建,在我这里管",把你锁进他们的生态。Google则高举开放大旗——联邦接入第三方语义模型,用Iceberg标准打破隔离。
这很像安卓 vs iOS的战争。Google在赌:当Agent成为新的"应用程序",开放架构终将吞噬封闭花园。
但说实话,这场战争才刚刚打响。企业现在面临的三重夹击很现实:
- 语义赤字:手动维护的数据目录在Agent规模下会瞬间崩塌;
- 跨云税:如果不转向Iceberg开放标准,Agent查询量的暴增会直接转化为云账单噩梦;
- 技能过时:还在手写ETL管道的工程师,可能很快会发现自己的代码产出速度赶不上Agent的零头。
当Agent开始自己查数据,人类还剩多少"人味"?
Agentic Data Cloud的发布,标志着企业数据架构从"人类中心主义"正式转向"Agent本位制"。
这不是危言耸听。当Knowledge Catalog自动理解业务逻辑,当跨云查询像本地查询一样便宜,当数据工程师只需要说"我要什么"而不是写"怎么做"——我们其实在见证数据工程这个职业的范式转移。
最有意思的是,这场变革的推手不是CTO的顶层设计,而是Agent永不停歇的查询请求。技术架构往往死于需求过载,而非规划不足。
所以,留给企业的选择题很简单:是现在就重建你的数据栈,适应Agent规模?还是等着凌晨三点的系统崩溃通知?
毕竟,Agent不会累,但你的账单会爆。
【锐评】:Google这招"用Agent养Agent"堪称阳谋——既当裁判又当运动员,还顺手把竞争对手的围墙花园拆了当砖用,数据工程师们该考虑转行做"AI监工"了。
参考链接:
https://venturebeat.com/data/the-modern-data-stack-was-built-for-humans-asking-questions-google-just-rebuilt-its-for-agents-taking-action