大模型的下半场：一场关于「工程化」的豪赌正在分出胜负

封面图

当所有人还在讨论哪家大模型参数更大、哪家上下文窗口更长时，一股暗流正在硅谷和欧洲的企业实验室里涌动——一批最敏锐的工程团队已经悄悄把注意力从「模型本身」转移到了别处。

他们不再问：这个模型有多强？

他们开始问：这个模型怎么才能更便宜、更可靠、更听话地跑在我自己的系统里？

这不是某个公司的战略转型，而是整个行业在经历一场认知地震。

当Pinterest动手「拆」Qwen

先说一个听起来有点暴力的故事。

Pinterest有6.2亿月活用户。每天，这帮人往上面扔数亿张图片。传统的做法是：用户刷图，模型实时理解每张图，然后推荐。听起来没毛病？

问题是：这是一份账单，不是一个策略。

Pinterest CTO Matt Madrigal的解法很直接——拆。他们把Qwen3-VL的视觉编码层整块拔掉，换成自己的私有Embedding。

不是微调，不是加个RAG，是直接改底层架构。

结果：成本砍掉90%，准确率还涨了30%。

这个数字有点反直觉。大多数人的预期是：你削弱一个前沿模型的组件，性能多少得掉一点。

但Madrigal的原话是：

"如果你有真正独特的数据，用它来微调一个开源模型——数据质量会打败模型规模。"

这是开源模型定制化最硬核的一次实战演示。不是小打小闹的prompt工程，是直接动权重。

那个「记忆」问题，终于有人动手了

模型训练完就「冻住」了，这是LLM的宿命。每次想塞点新知识进去，不是重训就是RAG。

重训贵死人。RAG受限于上下文窗口——当你要检索的文档是海量的，LLM根本消化不过来。

MeMo这个框架给出了一个反直觉的答案：别往主模型里塞东西了，给它挂一个「外脑」吧。

具体做法是：训练一个小型独立模型来存储新知识，主LLM需要时调用这个记忆模块。实验结果，性能提升26%，而且不需要重训主模型。

这意味着什么？

意味着企业的知识库可以实时更新，而不用等下一次模型发布窗口。

RAG党可能会说：这不就是高级RAG吗？

还真不是。RAG的问题是语义相似度不等于用户真正需要的东西。一段文字在向量空间里跟查询"像"，不代表它在当前对话语境下真的有价值。而MeMo用一个小模型来编码知识，本质上是让AI自己判断哪些知识该被调用。

这是一个更接近「机器学习」而不是「数据库查询」的思路。

Mistral在巴黎画了一条分界线

欧洲的Mistral AI最近在巴黎开了个峰会。会上，他们悄悄完成了自己的一次战略定位——不再是一家模型公司，而是一家全栈AI基础设施公司。

他们有40MW的数据中心在巴黎运营，还有更多在瑞典在建。他们卖的不是「最强模型」，而是你可以拥有、可以在本地运行的AI系统。

这个定位跟OpenAI/Anthropic画出了一条清晰的界线：后者的护城河是模型能力，前者的差异化是自主可控。

峰会上，技术讨论的一个核心议题是：Agentic架构里，什么才是真正的核心？

Mistral的技术观点是：Harness，比模型更重要。

翻译成人话就是：光有一个聪明的大脑不够，你需要一个「马具」——给它上下文、给它持久化能力、给它推理回溯的能力。没有这套东西，Agent跑两步就迷路、摔倒了就爬不起来。

有意思的是，Mistral还展示了多个案例：专用的小模型在特定任务上，效率和能耗远优于通用大模型。

这个趋势和Pinterest的实践形成了某种呼应：当你的任务足够明确，与其调用一个贵的、大的、什么都会的模型，不如用一个小的、专的、为你定制的模型。

企业AI的「装修队」进场了

上面说的都是正向案例——怎么让AI更强、更便宜。但有一批人正在面对一个更现实的问题：他们之前搭的AI系统，正在生产环境里各种崩溃。

Temporal Technologies的工程VP Prieti Somal在纽约的AI Impact峰会上说了一句大实话：

"我们接待了大量客户，他们正在建同一个Agent的2.0版本。当初跑得太快，没顾上'管道'建设。现在系统一塌糊涂，回来重建可靠的基础设施。"

这就是当前企业AI Agent的真实写照：从原型到生产的距离，比大多数团队预估的要远得多。

这不是模型能力的问题。你可以用GPT-4o跑通一个演示，但当你让它在一个真实工作流里跑几个小时、跨多个服务、调用外部API、管理状态——工程问题成堆成堆地冒出来。

状态管理、故障恢复、工作流编排、推理成本控制……这些对传统软件工程师来说是基本功的问题，在AI Agent的世界里被放大了一百倍。

因为Agent的每一个步骤都可能出错、可能需要回溯、可能需要等待外部系统的响应。

Temporal的判断是：Agentic AI不是一种新范式，而是把传统分布式系统的工程问题超级充电了。

工具调用：MCP正在被挑战

说到Agent的工具调用，Anthropic推出的MCP（Model Context Protocol）一度被视为行业标准。

但最近有一篇工程博客直接发文：MCP is Dead。

这篇博文在开发者社区引发了激烈讨论，甚至有OpenAI团队成员下场辩论。

作者的核心论点是：让LLM直接用CLI命令，比走MCP协议更轻、更灵活、上下文管理更干净。

他的实践是：把API调用方式封装成一段「Skill」，LLM需要时直接加载这段指令到上下文里。不需要的时候，这段代码根本不存在于对话中。

这解决了MCP的一个核心痛点：当你有42个工具定义要加载时，LLM的上下文被这些「工具元数据」塞满了，真正有用的信息反而被挤出窗口。

当然，MCP也没死透。作者承认，在没有CLI的SaaS服务、非技术用户场景、双向实时通信等情况下，MCP仍然是最优解。

这场辩论的本质是： 在Agent的世界里，「怎么让AI调用工具」不再是一个基础设施问题，而是一个工程哲学问题。是走协议栈的标准化路线，还是走CLI的轻量化路线？

没有标准答案，但这个争论本身就说明：AI Agent的生产化进程正在倒逼底层架构的重新设计。

模型不是主角，基础设施才是

把这五条素材串起来，一条暗线浮现出来：

大模型时代的第一幕是「军备竞赛」——参数更多、上下文更长、能力更强。

但第二幕的剧本已经变了：决定胜负的不再是模型本身，而是「怎么用模型」。

Pinterest告诉我们：换掉大模型的「眼睛」，换上自己的，成本降九成。

MeMo告诉我们：不用重训模型，给它挂一个外脑，知识随时更新。

Mistral告诉我们：在Agentic架构里，Harness比模型本身更核心。

Temporal告诉我们：企业的AI系统正在经历第一轮「装修」，可靠性和工程化是新的主战场。

开发者社区告诉我们：工具调用的方式正在被重新设计，MCP不是终点。

所有这些信号指向同一个方向：AI工业化的基础设施争夺战，已经静悄悄开打了。

谁会赢？

不是那个发布最强模型的玩家。

是那个最先搞清楚**「怎么让模型在我的系统里跑得又便宜又稳」**的团队。

【锐评】：大模型浪潮正在从「技术崇拜」进入「工程务实」阶段。接下来的故事里，最性感的不是又刷榜的新模型，而是那些在生产线上被反复摩擦后、终于学会「proper engineering」的AI系统。这场游戏的玩家，技术极客们可能得往后站一站，让老派软件工程师先上。

参考来源：