你见过最恐怖的"行业共识"是什么?
我见过最离谱的,是这个。
这是一张包含40+个主流大语言模型的架构对比图。整理它的人叫Sebastian Raschka,AI领域的技术博主。花了很长时间,他把2024年到2026年初几乎所有重要的开源模型拆了个底朝天。
然后他发现了一个让所有人大跌眼镜的事实:
这些看起来各怀绝技的AI公司,其实都在做同一件事——抄DeepSeek。
01 DeepSeek V3:被抄最多的那个"显眼包"
事情是怎么发生的?
2024年12月26日,DeepSeek发布了V3模型。这是一个6710亿参数、总激活370亿的稀疏MoE模型。官方没怎么宣传,论文也写得相当朴素。
但它干了两件让整个行业闭嘴的事:
第一,它用极低的成本(557万美元训练费用)训练出了一个性能对标GPT-4和Claude的模型。
第二,它开放了权重。
然后,奇迹发生了。
接下来的12个月里,几乎所有头部AI公司都像商量好了一样,开始"致敬"DeepSeek V3的架构设计。Sebastian Raschka在整理这些模型时发现,DeepSeek V3的架构模板几乎成了行业默认选项。
Llama 4 Maverick(2025年4月发布):400B总参数,17B活跃。Meta的官方说法是"自研架构",但Sebastian Raschka直接指出,它"遵循DeepSeek V3 playbook,只是注意力模块更传统"。换句话说,换了个注意力机制,其他照抄。
Mistral 3 Large(2025年12月发布):673B总参数,41B活跃。Sebastian Raschka的描述相当不客气——"Near-clone of DeepSeek V3"。不是"借鉴",不是"受启发",是"近乎克隆"。更大的专家、更少的路由专家、加了个多模态支持,就敢叫新一代旗舰。
GLM-4.5/4.7(2025年7月-12月发布):智谱AI的旗舰直接采用了"DeepSeek的dense-prefix MoE布局"。起步就是三个dense层,然后才开始MoE路由,还特意加了个shared expert。抄作业都抄得这么认真。
Qwen3 235B-A22B(2025年4月发布):阿里这个版本更绝——"非常接近DeepSeek V3,同时去掉了shared expert"。这是什么意思?这是"我觉得你那个设计有点多余,我改改"的抄法。
你发现问题了吗?
这些公司可都是估值几十亿、几百亿美元的AI巨头。它们的研发团队加起来可能有几千号人。结果呢?看到一个中国团队(DeepSeek)的架构,第一反应不是"我们要有自己的创新",而是"这个好像真的管用,我们也整一个"。
02 为什么大家都在抄?
有人可能会问:抄就抄呗,有问题吗?
说实话,站在工程角度,我能理解。
大语言模型的架构设计,本质上是在三个约束条件之间找平衡:性能、推理成本、训练成本。Dense模型(也就是传统的完整参数模型)性能最好,但成本高到天上。MoE(混合专家)模型用一个"门控机制"只激活部分参数,能省成本,但设计起来巨复杂。
DeepSeek V3厉害之处在于,它在这三个维度上找到了一个近乎最优的解。而且它把训练方法(RLHF、pre-training recipe)全部公开了。
所以对于其他公司来说,这道题已经有人做出来了。验证过的、可复现的、效果还特别好。
那还纠结什么?
自己重新设计一套架构,光是验证"这个设计行不行"可能就要花几个月。训练一次模型的成本可能是几百万美元。失败了,钱打水漂。
抄作业呢?改一改就能用,省时省力还保险。
商业世界里,这种选择太正常了。问题是——
当所有公司都在抄同一份答案,这个行业还有创新吗?
03 真正的叛逆者
好消息是,不是所有人都在躺平。
Sebastian Raschka在整理这40多个模型时,发现了几个"刺头"。它们没有抄DeepSeek,而是在尝试一些完全不同的东西。
第一个刺头是Kimi Linear 48B-A3B(2025年10月发布)。Moonshot Kimi这个模型做了一件很疯狂的事:它用"线性注意力"替换了大部分标准注意力机制。
标准Transformer的注意力机制,计算复杂度是O(n²)—— token数量一多,计算量爆炸。线性注意力把这个复杂度降到O(n)。代价是数学上更复杂,稳定性更难保证。
Kimi Linear选择了一条更难走的路。Sebastian Raschka的评价是:"用NoPE in MLA layers和channel-wise gating来处理长上下文效率"。听起来很玄乎,但意思很简单——他们在尝试重新定义"注意力"本身。
第二个刺头是Ling 2.5 1T(2026年2月发布)。1万亿参数,630亿活跃。这是目前参数规模最大的开源模型之一。但更惊人的是它的注意力设计:7:1的线性注意力/MLA比例,外加Lightning Attention。
这是什么意思?它把大部分计算都交给了线性注意力,只保留少量MLA做补充。相当于在说"Transformer的注意力机制太慢了,我们整个换成更快的"。
第三个刺头是NVIDIA的Nemotron 3系列。Nemotron 3 Nano 30B和Super 120B做了一件更激进的事——它们把Mamba-2(一种状态空间模型)和Transformer混在一起用。
状态空间模型是另一个技术流派。它不用注意力机制,而是用"状态传递"来处理序列。NVIDIA的选择是:大部分层用Mamba-2,只在关键层保留少量GQA。
Sebastian Raschka称之为"gallery中最极端的transformer-state-space混合"。极端这个词用得很准确。
这三个刺头的共同点是:它们都在尝试打破"Transformer+注意力机制"这个默认选项。它们不一定成功,甚至可能最后被证明是死胡同。
但它们的存在提醒我们:抄作业之外,还有人在试图写出新的答案。
04 一个让人后背发凉的发现
整理完这40多个模型之后,Sebastian Raschka在评论区回答了一个问题:
"Did it teach you something about LLM Architecture that you didn't know before you began?"
他怎么说?
"I was surprised at how similar all of them are with the main differences being the size of layers."
翻译一下:我很惊讶,这些模型竟然如此相似。主要的区别只是层的大小。
这个回答让我后背发凉。
什么意思?2024年到2026年,AI行业烧了可能几百亿美元,雇了全世界最聪明的工程师,发布了四十多个"新一代旗舰模型"。
结果呢?
大家的架构本质上是一样的,只是把层数调一调、参数改一改、专家数量换一换。真正的范式创新?几乎没有。
DeepSeek V3出来之后,所有人都去抄它。不是因为它完美,而是因为它"足够好"。在一个"足够好"的解法面前,创新变得太贵、太慢、太冒险。
这是行业的成熟,还是行业的倦怠?
05 尾声
写到这里,我突然想起一件事。
2023年ChatGPT刚出来的时候,大家都在讨论"AI的iPhone时刻"。所有人都在期待:这个领域会像智能手机一样,每一代都有颠覆式的创新。
两年过去了。
我们确实看到了很多模型:GPT-4、Claude 3.5、Gemini、Llama 3、DeepSeek V3……一个比一个强,一个比一个便宜。
但如果你把它们全部拆开,会发现它们都是同一个骨架上的不同尺寸的零件。
真正的叛逆者永远是少数。Kimi Linear、Ling、Nemotron——这些名字可能最后都会被遗忘。但它们代表的那种"我偏不"的劲儿,可能是这个行业最稀缺的东西。
下次当你看到某个公司发布"革命性的新一代AI架构"时,不妨问一句:
它是真革命,还是给DeepSeek V3换了个皮肤?
【MiniMax-M2.1锐评】:这篇文章巧妙地把一个技术图库变成了行业观察,用"抄作业"这个比喻串联起整个叙事,既有技术细节又有情绪张力,最后的追问留了个好钩子。
参考链接:
https://sebastianraschka.com/llm-architecture-gallery/