30人团队、2000万美元豪赌：美国开源AI的“绝地反击”

老实说，看到美国开源 AI 阵营现在的样子，挺让人唏嘘的。

就在大家以为 Meta 的 Llama 还能撑起半边天的时候，风向早就变了。中国的大模型像 Qwen、DeepSeek、Zhipu 这些，在开源社区简直是大杀四方，效率高得离谱。

而大洋彼岸，曾经高喊开源的硅谷巨头们，要么闭源了，要么干脆“隐身”了。

就在这个节骨眼上，一家叫 Arcee 的旧金山 AI 实验室，搞了个大动静。他们没搞什么虚头巴脑的发布会，直接甩出了一个 4000 亿参数的大家伙——Trinity Large。

这不仅仅是一个模型，更像是美国 AI 圈在极度焦虑下，一次带着“赌气”性质的绝地反击。

美国开源的“至暗时刻”

AI配图

把时间倒回去一点，你会发现这事儿挺有意思。

Meta 曾经是开源界的带头大哥，Llama 系列几乎是开发者的标配。但到了 2025 年 4 月，Llama 4 推出后，反响平平。甚至连 Meta 自己的首席科学家 Yann LeCun 后来都承认，他们用了好几个专门版本来刷榜，才把分数撑起来。这事儿一出，公信力多少有点打折。

与此同时，OpenAI 虽然在夏天搞了个 gpt-oss 系列，但那是“部分开源”。真正能打的、完全从头训练的美国开源模型，突然出现了一个巨大的真空期。

这时候，中国团队补位了。

阿里巴巴的 Qwen、智谱 AI、DeepSeek、Moonshot、百度……这些名字在 Hugging Face 上刷屏。它们架构新、效率高，开发者们用得那叫一个顺手。

Arcee 的 CEO Mark McQuade 也就是在这个时候，敏锐地嗅到了危机。> “美国或者西方的玩家停止开源这些模型了，但中国实验室开始生产最前沿的模型并开源。”

McQuade 说得很直白：很多大机构跟他们聊天时明确表示，不敢用中国架构的模型。

这就是 Trinity Large 登场的背景——它要填补这个让美国企业“不舒服”的依赖真空。

4000亿参数的“瘦身”奇迹

Trinity Large 一出场，数据就很吓人：4000 亿参数。

但这年头，参数多不代表本事大，关键是能不能跑得动。Arcee 这次玩了个很“极客”的花活：混合专家架构。

简单说，虽然这模型肚子里有 4000 亿个参数神经元，但它在干活的时候，只有 1.56%（也就是 130 亿参数）是醒着的。

这就像一个拥有超级大脑的专家，平时只动用一小部分脑细胞就能处理复杂任务。

这种极度稀疏的设计，让它在推理速度上比同级别的模型快了 2 到 3 倍。

有意思的是，除了这个“成品”，Arcee 还扔出了一个更硬核的东西：Trinity-Large-TrueBase。这玩意儿在开源圈简直是个“异类”。

现在市面上所谓的“开源模型”，大多经过了指令微调（SFT）和人类反馈强化学习（RLHF）。这就好比你买回来的食材，都已经腌制好了，甚至煮熟了，你只能吃，很难研究它原本是什么味道。

但 TrueBase 是一个“生”的。

AI配图

它是一个在 10 万亿 token 标记下的原始检查点，没有任何指令调优，也没有强化学习的“污染”。

Arcee 的 CTO Lucas Atkins 说了句大实话：这个检查点本身，已经是世界上表现最好的基础模型之一了。为什么要这么做？

对于那些金融、国防这种高度监管的行业来说，这简直是刚需。他们需要知道模型的“ intrinsic reasoning capabilities”（内在推理能力）到底是什么，而不是被后期调教出来的“讨好型人格”给蒙蔽了。

你要审计，要自己搞对齐，就得从这种“白纸”开始。

33天、2000万美金与B300

我个人觉得，Trinity Large 最让人佩服的不是参数，而是它的“出身”。Arcee 这家公司，满打满算只有 30 个人。

他们的总资金不到 5000 万美元，却掏出 2000 万美元来训练这个模型。这简直就是“梭哈”。

Atkins 把这称为“限制下的工程”。

“我一直认为，拥有约束——无论是资金还是人员——对创造力极其重要。当你有无限预算时，你根本不需要通过工程手段来解决复杂问题。”

这话说得挺扎心。想想那些动辄烧掉几十亿美元的巨头，有时候钱多了，反而懒得动脑子了。为了省钱又快，Arcee 也是拼了。

他们搞到了英伟达还没大规模铺货的 B300（Blackwell 架构）GPU。这芯片的速度是上一代 Hopper 的两倍，内存也大得多。

结果就是，整个预训练只用了 33 天。

如果用上一代的 Hopper 跑，这事儿得拖上两三个月。在 AI 这个一天一个样的行业里，三个月就是生与死的距离。

当然，训练这种 4000 亿参数的稀疏模型，技术坑也不少。

他们用的是 4-of-256 架构，也就是 256 个专家里，每次只激活 4 个。这种高稀疏度很容易导致训练不稳定，出现几个“学霸”专家包揽所有任务，其他专家全是“划水”的情况。Arcee 自己搞了个叫 SMEBU（Soft-clamped Momentum Expert Bias Updates）的机制，强制专家们雨露均沾，不能偏科。

在数据上，他们也没走寻常路。

他们和 DatologyAI 合作，用了 8 万亿 token 的合成数据。

但这里的“合成”不是让小模型模仿大模型说话，而是把博客、维基百科这些原始文本，压缩成更短的 token。

这招很高明：模型学的是怎么“推理”信息，而不是死记硬背一长串字符。## 谁在真正定义“主权”？

现在把 Trinity Large 和 OpenAI 的 gpt-oss-120b 放在一起看，挺有意思。

虽然都是稀疏架构，都挂着 Apache 2.0 这种最宽松的许可证，但路子不一样。

gpt-oss-120b 在推理和数学基准测试上可能还占优，但 Trinity Large 在上下文容量和深度上更有优势。

它原生支持 512k 上下文，甚至评估显示在 100 万 token 的长度下还能保持性能。这对于现在火热的 Agent（智能体）工作流来说，太重要了。

Arcee 现在的目标很明确：做美国的那个“冠军”。

McQuade 说得很露骨：“我们想成为美国的那个冠军，但这角色目前其实不存在。”

Apache 2.0 许可证意味着什么？

意味着企业可以真正“拥有”这个模型层。不用担心被云厂商锁死，也不用担心数据传到第三方的服务器上。对于那些对数据主权极其敏感的巨头来说，这才是安全感。

Arcee 团队现在还在纠结一件事：怎么在“智商”和“好用”之间找平衡。他们不想搞成一个在榜单上分数很高，但在实际生产里废话连篇的“话痨”。

“我们构建 Trinity，是为了让你拥有它。”

这句话挺有情怀的。

在大家都想搞封闭生态、搞 API 租赁的今天，还有一家 30 人的小公司，愿意花 2000 万美金，把一个 4000 亿参数的“底座”赤裸裸地交给社区。

这本身，就比技术指标更值得关注。

不管怎么说，美国开源 AI 的这场反击战，算是正式打响了。至于能不能抢回被中国模型占领的高地，咱们拭目以待。

参考链接：
https://venturebeat.com/technology/arcees-u-s-made-open-source-trinity-large-and-10t-checkpoint-offer-rare-look