Google 重构数据架构：从'为人服务'转向'为 Agent 服务'

你的数据架构，正在杀死凌晨三点的AI Agent

凌晨三点，你的AI Agent还在疯狂查询数据库。

它不需要喝咖啡，不会眼酸，也不会抱怨加班。但问题是：你的数据栈撑不住了。

这是Google Cloud Next大会上，VP Andi Gutmans抛出的残酷现实。当人类下班睡觉，Agent开始7x24小时自主决策时，那个为"人类看报表"设计的古老架构，正在以肉眼可见的速度崩解。

Google的解法很激进：直接把数据云拆了重建，取名Agentic Data Cloud（智能体数据云）。

这不是升级，是基因突变。

从"人类规模"到"智能体规模"，只差一个认知断层

过去二十年，企业建数据仓库的核心KPI是什么？

让人看懂报表。BI仪表盘、季度预测、 reactive intelligence（被动智能）——人类看完数据，拍脑袋做决策。

AI配图

但现在，Agent要直接替企业"动手"了。它们不需要漂亮的柱状图，需要的是能立即执行的语义上下文。

"我们要确保所有企业数据都能被AI激活，包括结构化和非结构化数据。这不仅仅是访问数据，而是真正理解数据。"

Gutmans这句话的潜台词很刺耳：你们现在那点数据治理水平，根本不够Agent塞牙缝的。

传统数据目录怎么工作的？一群数据管家（Data Stewards）手动贴标签、建术语表、维护 glossary。这种"中世纪手工业"模式，在Agent每秒发起数百次查询的场景下，就是个笑话。

Google的Knowledge Catalog（知识目录）直接掀桌——用Agent来管理Agent。它自动从查询日志里推断业务逻辑，无需人工干预，原生覆盖BigQuery、Spanner、AlloyDB，还能联邦接入Collibra、Atlan、Datahub，甚至直接读懂SAP、Salesforce、ServiceNow的语义上下文。

数据治理终于从"人管数据"变成了"AI管AI"。

跨云查询不收"买路财"，Iceberg成了特洛伊木马

如果说Knowledge Catalog解决了"Agent懂不懂数据"，那Cross-cloud Lakehouse（跨云湖仓）解决的就是"Agent能不能摸到数据"。

这里有个行业潜规则：云厂商的围墙花园。

你的数据在AWS S3，分析工具在Google BigQuery？以前要么付天价出口费（egress fees）把数据搬来搬去，要么忍受API联邦查询的残废性能。

Google这次玩了个狠的——基于开源Apache Iceberg格式的存储层共享。通过Cross-Cloud Interconnect（跨云互联），BigQuery可以直接查询躺在AWS S3上的Iceberg表，零出口费，性能还能跟原生AWS数仓打平。

更骚的是双向联邦：Databricks Unity Catalog、Snowflake Polaris、AWS Glue Data Catalog，通过Iceberg REST Catalog标准全部打通。

AI配图

这意味着什么？

Agent可以无缝访问跨云数据，而企业不用再给云厂商交"数据过路费"。当Agent查询量呈指数级增长时，这笔隐性成本能省下的钱，可能够再养一个AI团队。

Gutmans毫不客气："我们要把所有AI能力带到第三方数据集上，无论它存在哪朵云里。"

翻译一下：你的数据存在哪不重要，重要的是Agent能随时调用。

程序员从"搬砖"变成"监工"，只需一个IDE插件

前两大支柱解决了数据和上下文，但最颠覆认知的是第三根：Data Agent Kit（数据智能体工具包）。

它直接插进VS Code、Claude Code、Gemini CLI和Codex——不创造新界面，而是寄生在你现有的工作流里。

传统数据工程师的一天：写Spark管道、调ETL任务、处理 schema drift，像搬砖一样把数据从A点搬到B点。

现在？你只需要描述结果。

"我要一个清洗过的数据集用于模型训练"，"我要一个符合GDPR规则的转换逻辑"——Agent自动选择是用BigQuery、Lightning Engine for Spark还是Spanner来执行，然后生成生产级代码。

"客户受够了自建管道，他们现在更多是在审查模式，而不是写代码模式。"

Gutmans这句话可能让很多数据工程师脊背发凉。不是因为他们要失业，而是职业身份正在发生微妙转移：从"代码创作者"变成"结果审核员"。

当Agent能写出比你更快的管道代码，人类的比较优势只剩下业务理解和质量把控。

开放 vs 封闭：一场关于语义层的话语权战争

当然，Google不是唯一看到这块蛋糕的。

Databricks有Unity Catalog，Snowflake有Cortex，Microsoft Fabric也在狂补语义层。大家的共识是：Agent时代，语义上下文就是新的基础设施。

分歧在于：谁来定义这些语义？

Databricks和Snowflake的策略是"在我这里建，在我这里管"，把你锁进他们的生态。Google则高举开放大旗——联邦接入第三方语义模型，用Iceberg标准打破隔离。

这很像安卓 vs iOS的战争。Google在赌：当Agent成为新的"应用程序"，开放架构终将吞噬封闭花园。

AI配图

但说实话，这场战争才刚刚打响。企业现在面临的三重夹击很现实：

语义赤字：手动维护的数据目录在Agent规模下会瞬间崩塌；
跨云税：如果不转向Iceberg开放标准，Agent查询量的暴增会直接转化为云账单噩梦；
技能过时：还在手写ETL管道的工程师，可能很快会发现自己的代码产出速度赶不上Agent的零头。

当Agent开始自己查数据，人类还剩多少"人味"？

Agentic Data Cloud的发布，标志着企业数据架构从"人类中心主义"正式转向"Agent本位制"。

这不是危言耸听。当Knowledge Catalog自动理解业务逻辑，当跨云查询像本地查询一样便宜，当数据工程师只需要说"我要什么"而不是写"怎么做"——我们其实在见证数据工程这个职业的范式转移。

最有意思的是，这场变革的推手不是CTO的顶层设计，而是Agent永不停歇的查询请求。技术架构往往死于需求过载，而非规划不足。

所以，留给企业的选择题很简单：是现在就重建你的数据栈，适应Agent规模？还是等着凌晨三点的系统崩溃通知？

毕竟，Agent不会累，但你的账单会爆。

【锐评】：Google这招"用Agent养Agent"堪称阳谋——既当裁判又当运动员，还顺手把竞争对手的围墙花园拆了当砖用，数据工程师们该考虑转行做"AI监工"了。

参考链接：
https://venturebeat.com/data/the-modern-data-stack-was-built-for-humans-asking-questions-google-just-rebuilt-its-for-agents-taking-action