斯坦福研究：多智能体系统是在交“智商税”？单智能体往往更强

你正在交"AI群税"？斯坦福最新研究给多智能体狂热泼了盆冷水

花三倍的钱，买一样的答案。

这大概是当下AI圈最尴尬的真相。当无数工程师正忙着把单个大模型拆成"规划员-执行员-质检员"的豪华套餐时，斯坦福大学的最新论文突然站出来喊话：先别急着搞群聊，你可能只是在为"算力浪费"买单。

他们给这种现象起了个刺耳的名字——"群体税"（Swarm Tax）。

说实话，过去两年AI圈有点魔怔了。

只要打开GitHub，满眼都是Multi-Agent框架。辩论 swarm、角色扮演、规划-执行分离...看起来像是把人类组织架构复刻到硅基世界里，高级，专业，有仪式感。

AI配图

但斯坦福的研究者Dat Tran和Douwe Kiela发现了一个令人不适的巧合：这些多智能体系统赢的时候，往往都是因为它们偷偷多吃了几碗饭。

"很多单智能体（SAS）与多智能体（MAS）的比较都不是苹果对苹果，"研究者直言，"MAS通常通过额外调用、更长轨迹或更多协调步骤获得更多测试时计算。"

翻译成人话：当你看到那个"多智能体协作"的Demo效果惊艳时，可能只是因为后台Token消耗量已经爆表了。就像两个学生考试，一个独立思考，另一个可以无限次翻书、打电话问同学、写草稿写到手软——最后分数高点，真的说明他更聪明吗？

为了拆穿这个把戏，斯坦福团队设计了一个"公平擂台"：固定"思考Token预算"（thinking token budget）。

规则很简单：只看用于中间推理的Token数，不算初始提示和最终输出。在这种硬约束下，双方真刀真枪比一场多跳推理（multi-hop reasoning）——就是那种需要把A连到B再连到C的复杂逻辑题。

结果有点打脸。

单智能体不仅没输，在大多数情况下还赢了。 而且赢得很经济：更少的模型调用、更低的延迟、更简单的调试流程。

AI配图

研究者甚至专门给单智能体开了个挂，搞了个叫**SAS-L（Single-Agent System with Longer thinking）**的技巧。不是加模型，只是改提示词：明确要求模型在给出答案前，先识别歧义、列出候选解释、测试替代方案——把"自我反思"写进Prompt里。

就这么简单的Prompt工程，配合Gemini 2.5这类模型，单智能体的 aggregate performance 反而压过了多智能体群殴。

这里有个反直觉的底层逻辑，叫**"数据处理不等式"（Data Processing Inequality）**。

AI配图

每次信息从一个Agent传递到另一个Agent，都要经过一次"有损压缩"。A把想法总结给B，B再提炼给C——就像传话游戏，每一手都可能丢掉一点 nuance。而单智能体在一个连续上下文里思考，保留了最丰富的原始信息表征。

说白了，分工协作的代价是信息熵增。

"企业往往低估了编排的真实成本，"研究者警告，"每增加一个Agent，就引入通信开销、更多中间文本、更多有损摘要的机会，以及更多错误累积的节点。"

那些看起来很美的架构图——箭头飞来飞去，各司其职——背后都是真金白银的API账单和延迟焦虑。

先别急着拆架构。

斯坦福团队也留了面子：当上下文变成"垃圾场"时，多智能体确实能救命。

想象一下：输入数据充满噪声、长文本里塞满干扰项、信息本身已经 corrupted。这时候让单个大模型硬啃，它可能会懵。而多智能体的结构化过滤、任务分解和交叉验证，反而能从混乱中打捞信息。

边界在这里：不是任务有多难，而是输入有多脏。

如果瓶颈是"推理深度"，单智能体足够；如果是"上下文碎片化或退化"，多智能体才值得辩护。

对于正在选型的高管和技术负责人，这篇论文相当于一份防骗手册。

第一，建立基线。 在上多智能体之前，先试试SAS-L——给单模型足够的思考预算，强迫它"多想一会儿"。很多时候你会发现，根本不需要那套复杂的编排。

第二，警惕API陷阱。 很多模型厂商的Token计数方式很暧昧。研究者发现Gemini 2.5等模型的API报告就有"会计造假"嫌疑。建议：记录所有可见的推理轨迹，对厂商提供的数字保持怀疑。

第三，算总账。 如果单智能体在同等推理预算下性能持平，那它在总拥有成本（TCO）上已经赢了——更少的调用次数、更低的延迟、更短的调试周期。

"没有这条基线，一些企业可能正在为那些优势实际上来自消耗更多计算而非更有效推理的架构支付大额'群体税'，"Tran说。

这并不意味着多智能体架构会消失。

但随着GPT-4o、Claude 3.5、Gemini 2.5等前沿模型的内部推理能力越来越强，"加Agent"正在从默认选项变成特定手术刀。

就像研究者总结的："多智能体结构应该被视为针对特定瓶颈的靶向工程选择，而非'更多Agent自动意味着更强智能'的默认假设。"

换句话说，别再为了显得高级而搞群聊。

除非你的数据真的脏到必须分工过滤，否则先让那个孤独的AI多思考几分钟——你的云账单会感谢这个决定。

毕竟，在这个ROI至上的年代，"简单且够用"本身就是一种架构智慧。

【锐评】：多智能体不是银弹，而是昂贵的创可贴——当单模型足够聪明时，强行搞"群聊"只是在给云厂商打工。

参考链接：
https://venturebeat.com/orchestration/are-you-paying-an-ai-swarm-tax-why-single-agents-often-beat-complex-systems