说实话,现在的 AI 代理在互联网上就像个又聋又瞎的富二代。

虽然它们有钱(企业愿意烧算力),也有脑力(大模型),但只要一打开浏览器,立马就傻眼了。面对满屏的按钮、弹窗和复杂的网页结构,它们只能像个不懂当地语言的游客,靠猜来过日子。

image

要么疯狂截屏发给多模态模型分析,要么硬啃那一堆乱七八糟的 HTML 代码。

结果呢?为了找个搜索框,或者点个“下一页”,几千个 token 就没了。这种既昂贵又脆弱的“瞎逛”,可能马上就要结束了。

就在这周,谷歌 Chrome 团队干了一件大事:他们在 Chrome 146 Canary 版本里,悄悄上线了一个叫 WebMCP 的早期预览。

更有意思的是,这玩意儿是谷歌和微软的工程师联手搞出来的。

别让 AI 再当瞎子了

咱们先说点实话,现在的网页代理(Browser Agents)到底有多废?

目前主流就两招:视觉抓取和 DOM 解析。所谓的视觉抓取,就是让 AI 像人眼看屏幕一样去识别按钮。听起来很智能,实际上巨烧钱。每截一张图,都要消耗大量的 token,而且还得等模型慢慢推理,延迟高得让人抓狂。

另一种是解析 DOM,也就是让 AI 直接读网页代码。这就好比让一个只会背字典的人去读小说,HTML 标签、CSS 规则一大堆,跟任务无关的垃圾信息占满了上下文窗口。

image

不管哪种方式,AI 都在做一件低效的事:翻译

它得把“给人看”的网页界面,硬生生翻译成“给机器看”的结构化数据。人类几秒钟能搞定的一次商品搜索,AI 可能要反复点击、滚动、截图几十次。每一次交互,都是一次真金白银的推理调用。

企业主看着账单,心都在滴血。

给网页装上标准接口

WebMCP 想解决的就是这个痛点。

简单来说,它给浏览器加了一个新的 API:navigator.modelContext。

这玩意儿是给网页和 AI 代理之间搭了一座直通桥。网站不再需要为了迎合 AI 去重构后端,直接把现有的前端 JavaScript 逻辑,“包装”一下就能给 AI 用。它搞了两个 API,挺有意思:

一个是 声明式 API。这招很鸡贼,如果你网站的表单写得本来就很规范,稍微加几个工具名和描述,AI 就能直接调用了。基本上,如果你代码写得不烂,这事儿已经完成 80% 了。

另一个是 命令式 API。这个专门对付那些复杂的、需要跑 JS 逻辑的操作。开发者可以用 registerTool() 把像 searchProducts 或者 orderPrints 这样的功能直接暴露给 AI。这意味着什么?

以前 AI 买个东西得像个傻子一样点筛选器、翻页、截图。现在直接一个结构化的函数调用过去,数据就回来了。

从几十次交互,变成一次调用。

这效率,简直是降维打击。

image

成本狂降,但这还不是最狠的

对于搞技术的决策者来说,WebMCP 简直是送分题。

首先是省钱。 把那些耗 token 的截图、DOM 解析全砍掉,换成结构化调用,这成本能降多少,算算账就知道。

其次是稳。 以前网页 UI 稍微改个版,或者加载慢一点,AI 就可能找不到北,直接报错。现在网站直接告诉 AI:“我有这些功能,参数是这样的,我就长这样”。AI 不用猜了,确定性大大提高。

最后是快。 开发团队不用再去搞什么 Python 或 Node.js 的后端 MCP 服务器,直接复用现有的前端 JS 代码。

这点我个人觉得特别务实。不折腾架构,不搞新框架,把手头的代码变现,这才是工程师喜欢的路子。

它不想取代你,只想和你搭伙

这里有个挺大的反转,可能和大家想的不一样。

现在市面上都在炒作“全自动代理”,好像 AI 马上就能把你踢开,自己在网上为所欲为。但 WebMCP 的设计哲学完全相反。

它是为了 “人机协作” 设计的。

Chrome 的工程师 Khushal Sagar 专门提了三个词:上下文、能力、协调。

举个官方给的例子:用户 Maya 想买件适合婚礼的环保礼服。

AI 建议了几个网店,打开网页。这时候,WebMCP 上场了。它发现了网站暴露的工具,比如 getDresses()。

AI 调用这个工具拿到数据,用自己的逻辑筛选出“适合鸡尾酒会”的款式,再调用 showDresses() 把结果刷在页面上给 Maya 看。注意,从头到尾,Maya 都在看着

这不是那种躲在后台跑的“无头浏览器”。规范里写得很死:无头、全自动场景,不是我们的菜。

WebMCP 要做的,是你坐在屏幕前,AI 帮你把繁琐的点击、筛选、填表干了,你只负责做决定。

这种感觉,就像你雇了个特别机灵的助手,而不是一个随时准备抢你饭碗的机器人。

别搞混了

看到 WebMCP 这个名字,很多人可能会想到 Anthropic 的 MCP(Model Context Protocol)。老实讲,虽然名字有点像,祖宗也差不多,但它俩不是一回事,也不是来互相拆台的。

Anthropic 的 MCP 是走后端的,是服务器和服务器之间聊天的。

WebMCP 是走前端的,是浏览器里的活儿。

这俩其实是互补的。

比如一家旅游公司,后端可以用 MCP 接入 ChatGPT 做服务;前端的订票网页,可以用 WebMCP 让浏览器里的 AI 帮用户下单。

一个负责看不见的后台自动化,一个负责看得见的前台交互。各司其职,挺好。

万物互联的“Type-C”时刻?

目前,WebMCP 还在 Chrome 146 Canary 的 Flag 后面藏着(chrome://flags),想玩得去开“WebMCP for testing”。

虽然其他浏览器还没表态,但微软毕竟参与了研发,Edge 跟进应该是早晚的事。

业内预计,等到 2026 年中下旬,这玩意儿应该就能正式铺开了。

有人把 WebMCP 比作 AI 代理交互领域的 USB** Type****-C**。以前各种充电线乱成一锅粥,现在一个接口走天下。如果以后所有网站都通过 WebMCP 把自己“暴露”给 AI,那互联网确实会变成另一个样子。

当然,愿景很美好,能不能成,还得看有多少网站愿意跟进。

但谷歌和微软能把代码写出来并塞进浏览器,这事儿就已经成了一半。


参考链接:
https://venturebeat.com/infrastructure/google-chrome-ships-webmcp-in-early-preview-turning-every-website-into-a