当所有人还在讨论哪家大模型参数更大、哪家上下文窗口更长时,一股暗流正在硅谷和欧洲的企业实验室里涌动——一批最敏锐的工程团队已经悄悄把注意力从「模型本身」转移到了别处。
他们不再问:这个模型有多强?
他们开始问:这个模型怎么才能更便宜、更可靠、更听话地跑在我自己的系统里?
这不是某个公司的战略转型,而是整个行业在经历一场认知地震。
当Pinterest动手「拆」Qwen
先说一个听起来有点暴力的故事。
Pinterest有6.2亿月活用户。每天,这帮人往上面扔数亿张图片。传统的做法是:用户刷图,模型实时理解每张图,然后推荐。听起来没毛病?
问题是:这是一份账单,不是一个策略。
Pinterest CTO Matt Madrigal的解法很直接——拆。 他们把Qwen3-VL的视觉编码层整块拔掉,换成自己的私有Embedding。
不是微调,不是加个RAG,是直接改底层架构。
结果:成本砍掉90%,准确率还涨了30%。
这个数字有点反直觉。大多数人的预期是:你削弱一个前沿模型的组件,性能多少得掉一点。
但Madrigal的原话是:
"如果你有真正独特的数据,用它来微调一个开源模型——数据质量会打败模型规模。"
这是开源模型定制化最硬核的一次实战演示。不是小打小闹的prompt工程,是直接动权重。
那个「记忆」问题,终于有人动手了
模型训练完就「冻住」了,这是LLM的宿命。每次想塞点新知识进去,不是重训就是RAG。
重训贵死人。RAG受限于上下文窗口——当你要检索的文档是海量的,LLM根本消化不过来。
MeMo这个框架给出了一个反直觉的答案:别往主模型里塞东西了,给它挂一个「外脑」吧。
具体做法是:训练一个小型独立模型来存储新知识,主LLM需要时调用这个记忆模块。实验结果,性能提升26%,而且不需要重训主模型。
这意味着什么?
意味着企业的知识库可以实时更新,而不用等下一次模型发布窗口。
RAG党可能会说:这不就是高级RAG吗?
还真不是。RAG的问题是语义相似度不等于用户真正需要的东西。一段文字在向量空间里跟查询"像",不代表它在当前对话语境下真的有价值。而MeMo用一个小模型来编码知识,本质上是让AI自己判断哪些知识该被调用。
这是一个更接近「机器学习」而不是「数据库查询」的思路。
Mistral在巴黎画了一条分界线
欧洲的Mistral AI最近在巴黎开了个峰会。会上,他们悄悄完成了自己的一次战略定位——不再是一家模型公司,而是一家全栈AI基础设施公司。
他们有40MW的数据中心在巴黎运营,还有更多在瑞典在建。他们卖的不是「最强模型」,而是你可以拥有、可以在本地运行的AI系统。
这个定位跟OpenAI/Anthropic画出了一条清晰的界线:后者的护城河是模型能力,前者的差异化是自主可控。
峰会上,技术讨论的一个核心议题是:Agentic架构里,什么才是真正的核心?
Mistral的技术观点是:Harness,比模型更重要。
翻译成人话就是:光有一个聪明的大脑不够,你需要一个「马具」——给它上下文、给它持久化能力、给它推理回溯的能力。没有这套东西,Agent跑两步就迷路、摔倒了就爬不起来。
有意思的是,Mistral还展示了多个案例:专用的小模型在特定任务上,效率和能耗远优于通用大模型。
这个趋势和Pinterest的实践形成了某种呼应:当你的任务足够明确,与其调用一个贵的、大的、什么都会的模型,不如用一个小的、专的、为你定制的模型。
企业AI的「装修队」进场了
上面说的都是正向案例——怎么让AI更强、更便宜。但有一批人正在面对一个更现实的问题:他们之前搭的AI系统,正在生产环境里各种崩溃。
Temporal Technologies的工程VP Prieti Somal在纽约的AI Impact峰会上说了一句大实话:
"我们接待了大量客户,他们正在建同一个Agent的2.0版本。当初跑得太快,没顾上'管道'建设。现在系统一塌糊涂,回来重建可靠的基础设施。"
这就是当前企业AI Agent的真实写照:从原型到生产的距离,比大多数团队预估的要远得多。
这不是模型能力的问题。你可以用GPT-4o跑通一个演示,但当你让它在一个真实工作流里跑几个小时、跨多个服务、调用外部API、管理状态——工程问题成堆成堆地冒出来。
状态管理、故障恢复、工作流编排、推理成本控制……这些对传统软件工程师来说是基本功的问题,在AI Agent的世界里被放大了一百倍。
因为Agent的每一个步骤都可能出错、可能需要回溯、可能需要等待外部系统的响应。
Temporal的判断是:Agentic AI不是一种新范式,而是把传统分布式系统的工程问题超级充电了。
工具调用:MCP正在被挑战
说到Agent的工具调用,Anthropic推出的MCP(Model Context Protocol)一度被视为行业标准。
但最近有一篇工程博客直接发文:MCP is Dead。
这篇博文在开发者社区引发了激烈讨论,甚至有OpenAI团队成员下场辩论。
作者的核心论点是:让LLM直接用CLI命令,比走MCP协议更轻、更灵活、上下文管理更干净。
他的实践是:把API调用方式封装成一段「Skill」,LLM需要时直接加载这段指令到上下文里。不需要的时候,这段代码根本不存在于对话中。
这解决了MCP的一个核心痛点:当你有42个工具定义要加载时,LLM的上下文被这些「工具元数据」塞满了,真正有用的信息反而被挤出窗口。
当然,MCP也没死透。作者承认,在没有CLI的SaaS服务、非技术用户场景、双向实时通信等情况下,MCP仍然是最优解。
这场辩论的本质是: 在Agent的世界里,「怎么让AI调用工具」不再是一个基础设施问题,而是一个工程哲学问题。是走协议栈的标准化路线,还是走CLI的轻量化路线?
没有标准答案,但这个争论本身就说明:AI Agent的生产化进程正在倒逼底层架构的重新设计。
模型不是主角,基础设施才是
把这五条素材串起来,一条暗线浮现出来:
大模型时代的第一幕是「军备竞赛」——参数更多、上下文更长、能力更强。
但第二幕的剧本已经变了:决定胜负的不再是模型本身,而是「怎么用模型」。
Pinterest告诉我们:换掉大模型的「眼睛」,换上自己的,成本降九成。
MeMo告诉我们:不用重训模型,给它挂一个外脑,知识随时更新。
Mistral告诉我们:在Agentic架构里,Harness比模型本身更核心。
Temporal告诉我们:企业的AI系统正在经历第一轮「装修」,可靠性和工程化是新的主战场。
开发者社区告诉我们:工具调用的方式正在被重新设计,MCP不是终点。
所有这些信号指向同一个方向:AI工业化的基础设施争夺战,已经静悄悄开打了。
谁会赢?
不是那个发布最强模型的玩家。
是那个最先搞清楚**「怎么让模型在我的系统里跑得又便宜又稳」**的团队。
【锐评】:大模型浪潮正在从「技术崇拜」进入「工程务实」阶段。接下来的故事里,最性感的不是又刷榜的新模型,而是那些在生产线上被反复摩擦后、终于学会「proper engineering」的AI系统。这场游戏的玩家,技术极客们可能得往后站一站,让老派软件工程师先上。
参考来源: