60人团队、6千块GPU，闷头干了一年多，今天把老美整不会了

一个"神秘承包商"的突然转身

你可能没听过 Poolside AI 这家公司。

没关系，他们也没打算让你知道。

过去几年，这家公司就像个"隐形人"——只服务政府和公共部门，合同金额不明，客户名单不公开，官网简陋得像十年前的创业项目。外界对它的评价只有一句话："那帮人在闷头搞大事。"

直到 2026 年 4 月 28 日。

Poolside 突然在 X 上扔出一颗炸弹：Laguna XS.2，一款 33B 参数的开源编程模型。更狠的是，他们同时甩出了 Laguna M.1——一个 225B 参数的"怪兽"，在 SWE-bench Pro 上干到了 46.9%。

整个开源社区懵了。

这家公司到底什么来头？60 个人，怎么做到的？

单 GPU 跑 33B，老黄亲自站台

AI配图

先说 XS.2。

33B 总参数，3B 激活——听起来不大，但它是个 MoE（混合专家）模型。什么意思？不用加载全部参数，推理时只激活一小部分，所以一张 GPU 就能跑。

官方说：单卡 RTX 4090 或者 A100 都能跑起来。

对比一下：Qwen3.5 35B 同样激活 3B，但总参数是 35B；Claude Haiku 更是只有 4.5B 左右的激活量。XS.2 在 SWE-bench Verified 上拿到 68.2%，和 Devstral 2（123B 稠密模型）的 68.0% 基本持平。

更夸张的是 Terminal-Bench 2.0，XS.2 30.1%，直接干掉了 Claude Haiku 的 29.8%。

一个小模型，打平甚至超越闭源巨头。

而且 Day 1 就支持 TensorRT-LLM、NVIDIA 官方站台。老黄估计做梦都要笑醒——又多了个能打的开源模型。

政府单子不香了？它选择"开源"

问题来了：Poolside 之前明明只做政府和公共部门的生意，为什么突然开源？

AI配图

官方博客里有一句话很耐人寻味：

"我们相信西方需要强大的开源模型，我们想为这个生态系统做出贡献。"

翻译成人话就是：闭源那帮人（说的就是你，OpenAI 和 Anthropic）把持着最先进的模型，但开源社区不能没有自己的底牌。

有意思的是，Poolside 并没有放弃政府客户。博客明确说了"那项工作继续并仍然是我们的核心"。只是现在，他们想"两条腿走路"。

一手抓政府的高安全订单，一手抓开源社区的口碑和影响力。

这算盘打得，我在中关村都听见了。

代理式编程：不是"调用工具"，而是"写代码"

Poolside 的技术理念很激进。

现在大多数 AI 代理都在用"工具调用"——预先定义好一堆 API，代理只能挑其中一个来用。比如"调用搜索"、"调用计算器"、"调用文件读取"。

Poolside 认为这是"过渡方案"。

他们的观点是：软件才是最具表达力的接口。一个能写代码、能执行代码的代理，可以自己组合动作、并行工作、甚至临时搭建系统来和世界交互。

"我们相信代理式编程的未来不是工具调用，而是代码生成。"

这话听起来有点抽象，但想象一下：现在的 Claude 帮你写代码，未来的 AI 代理自己写代码、自己测试、自己迭代——整个流程一个人全包。

AI配图

XS.2 和 M.1 就是为这种"长程任务"设计的。什么叫长程？可能涉及几百次工具调用、几十轮文件读写、中间还要自己修 bug。

这才是真正的"自主代理"。

60 人 VS 几千人，效率恐怖

最让我震惊的是团队规模。

整个 Applied Research 部门，大约 60 人。

60 人干什么了？训练了两个 MoE 模型，其中一个是 225B 参数的 M.1，用了 6,144 块 NVIDIA Hopper GPU，30T tokens 数据。

对比一下：OpenAI、Anthropic、Google 的模型团队都是几千人的规模。Meta 的 Llama 团队人也不多，但人家有整个 FAIR 撑腰。

Poolside 60 个人，硬刚。

当然，GPU 数量摆在那儿——6 千块 Hopper，每小时租金少说几十万美金。钱肯定没少烧。

但效率确实恐怖。

数据配方：他们发现了什么秘密？

技术细节里有一段挺有意思。

Poolside 搞了个叫 AutoMixer 的系统，简单说：训练 60 个不同配方的"代理模型"，每个吃不同的数据混合，然后看哪个配方在代码、数学、STEM 上表现最好。

结果发现了一些反直觉的规律：

代码能力主要由合成数据和精选代码源驱动，通用网页数据反而会拖后腿
数学能力主要吃多样化的网页数学内容
STEM 知识和学术、教育文本强相关

他们还发现一个反常识的事情：FineWeb 的全局去重会过度删除高质量数据。因为高质量内容往往有更高的重复率（被大量引用），去重时反而被干掉了。

所以 Poolside 的策略是：不追求"纯度"，保留一定比例的"中等质量"数据来维持多样性。

这大概就是他们 30T tokens 训练出来还能保持高效的原因。

开源这条路上，XS.2 扮演什么角色？

XS.2 是 Poolside 的第一款开源模型。

Apache 2.0 协议，没有任何商业限制。你可以 fine-tune、可以量化、可以自己部署，想怎么玩怎么玩。

官方说会很快发布 XS.2-base（基座模型），不是经过 RLHF 的版本。

这意味着开发者可以拿它当底座，训自己的垂直模型。

目前已支持 Transformers、vLLM、TRT-LLM、MLX/mlx-lm、Ollama——几乎所有主流推理框架。

社区反馈也很直接：

"单 GPU 33B MoE 模型正是持久代理需要的效率。编程任务通常在 Sonnet 或 Opus 上烧掉大量 tokens 来做基础逻辑，有个专门的开源模型对 infra 成本来说是巨大胜利。"

尾声：开源社区需要更多"搅局者"

Poolside 的故事让我想到一个问题：AI 开发的权力结构，正在被谁重塑？

OpenAI 说"我们要安全，所以不能开源"。
Anthropic 说"我们要对齐，所以不能开源"。
Meta 说"我们开源，但只是部分权重"。

然后冒出来一家 60 人的小公司，闷头干了一年多，甩出两个强力模型，其中一个直接开源。

它告诉所有人：不是只有几千人的大厂才能训出好模型。不是只有闭源才能商业化。不是只有"安全"才能发布。

当然，Poolside 也不是活雷锋。它要的是影响力，是社区贡献，是未来可能的商业订单。

但这种"闷声发大财"然后突然开源的打法，确实给开源社区打了一针强心剂。

XS.2 不是终点。M.1 也不是。

真正的竞争，才刚刚开始。

【锐评】：Poolside 用 60 人证明了 AI 不是"人海战术"，开源也不是"低端替代"。当政府单子不够香的时候，他们就下场搅局——这波操作，格局打开。

参考链接：
https://x.com/poolsideai/status/2049144111626670282