老实说,看到美国开源 AI 阵营现在的样子,挺让人唏嘘的。
就在大家以为 Meta 的 Llama 还能撑起半边天的时候,风向早就变了。中国的大模型像 Qwen、DeepSeek、Zhipu 这些,在开源社区简直是大杀四方,效率高得离谱。
而大洋彼岸,曾经高喊开源的硅谷巨头们,要么闭源了,要么干脆“隐身”了。
就在这个节骨眼上,一家叫 Arcee 的旧金山 AI 实验室,搞了个大动静。他们没搞什么虚头巴脑的发布会,直接甩出了一个 4000 亿参数的大家伙——Trinity Large。
这不仅仅是一个模型,更像是美国 AI 圈在极度焦虑下,一次带着“赌气”性质的绝地反击。
美国开源的“至暗时刻”
把时间倒回去一点,你会发现这事儿挺有意思。
Meta 曾经是开源界的带头大哥,Llama 系列几乎是开发者的标配。但到了 2025 年 4 月,Llama 4 推出后,反响平平。甚至连 Meta 自己的首席科学家 Yann LeCun 后来都承认,他们用了好几个专门版本来刷榜,才把分数撑起来。这事儿一出,公信力多少有点打折。
与此同时,OpenAI 虽然在夏天搞了个 gpt-oss 系列,但那是“部分开源”。真正能打的、完全从头训练的美国开源模型,突然出现了一个巨大的真空期。
这时候,中国团队补位了。
阿里巴巴的 Qwen、智谱 AI、DeepSeek、Moonshot、百度……这些名字在 Hugging Face 上刷屏。它们架构新、效率高,开发者们用得那叫一个顺手。
Arcee 的 CEO Mark McQuade 也就是在这个时候,敏锐地嗅到了危机。> “美国或者西方的玩家停止开源这些模型了,但中国实验室开始生产最前沿的模型并开源。”
McQuade 说得很直白:很多大机构跟他们聊天时明确表示,不敢用中国架构的模型。
这就是 Trinity Large 登场的背景——它要填补这个让美国企业“不舒服”的依赖真空。
4000亿参数的“瘦身”奇迹
Trinity Large 一出场,数据就很吓人:4000 亿参数。
但这年头,参数多不代表本事大,关键是能不能跑得动。Arcee 这次玩了个很“极客”的花活:混合专家架构。
简单说,虽然这模型肚子里有 4000 亿个参数神经元,但它在干活的时候,只有 1.56%(也就是 130 亿参数)是醒着的。
这就像一个拥有超级大脑的专家,平时只动用一小部分脑细胞就能处理复杂任务。
这种极度稀疏的设计,让它在推理速度上比同级别的模型快了 2 到 3 倍。
有意思的是,除了这个“成品”,Arcee 还扔出了一个更硬核的东西:Trinity-Large-TrueBase。这玩意儿在开源圈简直是个“异类”。
现在市面上所谓的“开源模型”,大多经过了指令微调(SFT)和人类反馈强化学习(RLHF)。这就好比你买回来的食材,都已经腌制好了,甚至煮熟了,你只能吃,很难研究它原本是什么味道。
但 TrueBase 是一个“生”的。
它是一个在 10 万亿 token 标记下的原始检查点,没有任何指令调优,也没有强化学习的“污染”。
Arcee 的 CTO Lucas Atkins 说了句大实话:这个检查点本身,已经是世界上表现最好的基础模型之一了。为什么要这么做?
对于那些金融、国防这种高度监管的行业来说,这简直是刚需。他们需要知道模型的“ intrinsic reasoning capabilities”(内在推理能力)到底是什么,而不是被后期调教出来的“讨好型人格”给蒙蔽了。
你要审计,要自己搞对齐,就得从这种“白纸”开始。
33天、2000万美金与B300
我个人觉得,Trinity Large 最让人佩服的不是参数,而是它的“出身”。Arcee 这家公司,满打满算只有 30 个人。
他们的总资金不到 5000 万美元,却掏出 2000 万美元来训练这个模型。这简直就是“梭哈”。
Atkins 把这称为“限制下的工程”。
“我一直认为,拥有约束——无论是资金还是人员——对创造力极其重要。当你有无限预算时,你根本不需要通过工程手段来解决复杂问题。”
这话说得挺扎心。想想那些动辄烧掉几十亿美元的巨头,有时候钱多了,反而懒得动脑子了。为了省钱又快,Arcee 也是拼了。
他们搞到了英伟达还没大规模铺货的 B300(Blackwell 架构)GPU。这芯片的速度是上一代 Hopper 的两倍,内存也大得多。
结果就是,整个预训练只用了 33 天。
如果用上一代的 Hopper 跑,这事儿得拖上两三个月。在 AI 这个一天一个样的行业里,三个月就是生与死的距离。
当然,训练这种 4000 亿参数的稀疏模型,技术坑也不少。
他们用的是 4-of-256 架构,也就是 256 个专家里,每次只激活 4 个。这种高稀疏度很容易导致训练不稳定,出现几个“学霸”专家包揽所有任务,其他专家全是“划水”的情况。Arcee 自己搞了个叫 SMEBU(Soft-clamped Momentum Expert Bias Updates)的机制,强制专家们雨露均沾,不能偏科。
在数据上,他们也没走寻常路。
他们和 DatologyAI 合作,用了 8 万亿 token 的合成数据。
但这里的“合成”不是让小模型模仿大模型说话,而是把博客、维基百科这些原始文本,压缩成更短的 token。
这招很高明:模型学的是怎么“推理”信息,而不是死记硬背一长串字符。## 谁在真正定义“主权”?
现在把 Trinity Large 和 OpenAI 的 gpt-oss-120b 放在一起看,挺有意思。
虽然都是稀疏架构,都挂着 Apache 2.0 这种最宽松的许可证,但路子不一样。
gpt-oss-120b 在推理和数学基准测试上可能还占优,但 Trinity Large 在上下文容量和深度上更有优势。
它原生支持 512k 上下文,甚至评估显示在 100 万 token 的长度下还能保持性能。这对于现在火热的 Agent(智能体)工作流来说,太重要了。
Arcee 现在的目标很明确:做美国的那个“冠军”。
McQuade 说得很露骨:“我们想成为美国的那个冠军,但这角色目前其实不存在。”
Apache 2.0 许可证意味着什么?
意味着企业可以真正“拥有”这个模型层。不用担心被云厂商锁死,也不用担心数据传到第三方的服务器上。对于那些对数据主权极其敏感的巨头来说,这才是安全感。
Arcee 团队现在还在纠结一件事:怎么在“智商”和“好用”之间找平衡。他们不想搞成一个在榜单上分数很高,但在实际生产里废话连篇的“话痨”。
“我们构建 Trinity,是为了让你拥有它。”
这句话挺有情怀的。
在大家都想搞封闭生态、搞 API 租赁的今天,还有一家 30 人的小公司,愿意花 2000 万美金,把一个 4000 亿参数的“底座”赤裸裸地交给社区。
这本身,就比技术指标更值得关注。
不管怎么说,美国开源 AI 的这场反击战,算是正式打响了。至于能不能抢回被中国模型占领的高地,咱们拭目以待。
参考链接:
https://venturebeat.com/technology/arcees-u-s-made-open-source-trinity-large-and-10t-checkpoint-offer-rare-look