一个"神秘承包商"的突然转身

你可能没听过 Poolside AI 这家公司。

没关系,他们也没打算让你知道。

过去几年,这家公司就像个"隐形人"——只服务政府和公共部门,合同金额不明,客户名单不公开,官网简陋得像十年前的创业项目。外界对它的评价只有一句话:"那帮人在闷头搞大事。"

直到 2026 年 4 月 28 日。

Poolside 突然在 X 上扔出一颗炸弹:Laguna XS.2,一款 33B 参数的开源编程模型。更狠的是,他们同时甩出了 Laguna M.1——一个 225B 参数的"怪兽",在 SWE-bench Pro 上干到了 46.9%。

整个开源社区懵了。

这家公司到底什么来头?60 个人,怎么做到的?

单 GPU 跑 33B,老黄亲自站台

AI配图

先说 XS.2。

33B 总参数,3B 激活——听起来不大,但它是个 MoE(混合专家)模型。什么意思?不用加载全部参数,推理时只激活一小部分,所以一张 GPU 就能跑。

官方说:单卡 RTX 4090 或者 A100 都能跑起来。

对比一下:Qwen3.5 35B 同样激活 3B,但总参数是 35B;Claude Haiku 更是只有 4.5B 左右的激活量。XS.2 在 SWE-bench Verified 上拿到 68.2%,和 Devstral 2(123B 稠密模型)的 68.0% 基本持平。

更夸张的是 Terminal-Bench 2.0,XS.2 30.1%,直接干掉了 Claude Haiku 的 29.8%。

一个小模型,打平甚至超越闭源巨头。

而且 Day 1 就支持 TensorRT-LLM、NVIDIA 官方站台。老黄估计做梦都要笑醒——又多了个能打的开源模型。

政府单子不香了?它选择"开源"

问题来了:Poolside 之前明明只做政府和公共部门的生意,为什么突然开源?

AI配图

官方博客里有一句话很耐人寻味:

"我们相信西方需要强大的开源模型,我们想为这个生态系统做出贡献。"

翻译成人话就是:闭源那帮人(说的就是你,OpenAI 和 Anthropic)把持着最先进的模型,但开源社区不能没有自己的底牌。

有意思的是,Poolside 并没有放弃政府客户。博客明确说了"那项工作继续并仍然是我们的核心"。只是现在,他们想"两条腿走路"。

一手抓政府的高安全订单,一手抓开源社区的口碑和影响力。

这算盘打得,我在中关村都听见了。

代理式编程:不是"调用工具",而是"写代码"

Poolside 的技术理念很激进。

现在大多数 AI 代理都在用"工具调用"——预先定义好一堆 API,代理只能挑其中一个来用。比如"调用搜索"、"调用计算器"、"调用文件读取"。

Poolside 认为这是"过渡方案"。

他们的观点是:软件才是最具表达力的接口。一个能写代码、能执行代码的代理,可以自己组合动作、并行工作、甚至临时搭建系统来和世界交互。

"我们相信代理式编程的未来不是工具调用,而是代码生成。"

这话听起来有点抽象,但想象一下:现在的 Claude 帮你写代码,未来的 AI 代理自己写代码、自己测试、自己迭代——整个流程一个人全包。

AI配图

XS.2 和 M.1 就是为这种"长程任务"设计的。什么叫长程?可能涉及几百次工具调用、几十轮文件读写、中间还要自己修 bug。

这才是真正的"自主代理"。

60 人 VS 几千人,效率恐怖

最让我震惊的是团队规模。

整个 Applied Research 部门,大约 60 人。

60 人干什么了?训练了两个 MoE 模型,其中一个是 225B 参数的 M.1,用了 6,144 块 NVIDIA Hopper GPU,30T tokens 数据。

对比一下:OpenAI、Anthropic、Google 的模型团队都是几千人的规模。Meta 的 Llama 团队人也不多,但人家有整个 FAIR 撑腰。

Poolside 60 个人,硬刚。

当然,GPU 数量摆在那儿——6 千块 Hopper,每小时租金少说几十万美金。钱肯定没少烧。

但效率确实恐怖。

数据配方:他们发现了什么秘密?

技术细节里有一段挺有意思。

Poolside 搞了个叫 AutoMixer 的系统,简单说:训练 60 个不同配方的"代理模型",每个吃不同的数据混合,然后看哪个配方在代码、数学、STEM 上表现最好。

结果发现了一些反直觉的规律:

  • 代码能力主要由合成数据和精选代码源驱动,通用网页数据反而会拖后腿
  • 数学能力主要吃多样化的网页数学内容
  • STEM 知识和学术、教育文本强相关

他们还发现一个反常识的事情:FineWeb 的全局去重会过度删除高质量数据。因为高质量内容往往有更高的重复率(被大量引用),去重时反而被干掉了。

所以 Poolside 的策略是:不追求"纯度",保留一定比例的"中等质量"数据来维持多样性。

这大概就是他们 30T tokens 训练出来还能保持高效的原因。

开源这条路上,XS.2 扮演什么角色?

XS.2 是 Poolside 的第一款开源模型。

Apache 2.0 协议,没有任何商业限制。你可以 fine-tune、可以量化、可以自己部署,想怎么玩怎么玩。

官方说会很快发布 XS.2-base(基座模型),不是经过 RLHF 的版本。

这意味着开发者可以拿它当底座,训自己的垂直模型。

目前已支持 Transformers、vLLM、TRT-LLM、MLX/mlx-lm、Ollama——几乎所有主流推理框架。

社区反馈也很直接:

"单 GPU 33B MoE 模型正是持久代理需要的效率。编程任务通常在 Sonnet 或 Opus 上烧掉大量 tokens 来做基础逻辑,有个专门的开源模型对 infra 成本来说是巨大胜利。"

尾声:开源社区需要更多"搅局者"

Poolside 的故事让我想到一个问题:AI 开发的权力结构,正在被谁重塑?

OpenAI 说"我们要安全,所以不能开源"。
Anthropic 说"我们要对齐,所以不能开源"。
Meta 说"我们开源,但只是部分权重"。

然后冒出来一家 60 人的小公司,闷头干了一年多,甩出两个强力模型,其中一个直接开源。

它告诉所有人:不是只有几千人的大厂才能训出好模型。不是只有闭源才能商业化。不是只有"安全"才能发布。

当然,Poolside 也不是活雷锋。它要的是影响力,是社区贡献,是未来可能的商业订单。

但这种"闷声发大财"然后突然开源的打法,确实给开源社区打了一针强心剂。

XS.2 不是终点。M.1 也不是。

真正的竞争,才刚刚开始。


【锐评】:Poolside 用 60 人证明了 AI 不是"人海战术",开源也不是"低端替代"。当政府单子不够香的时候,他们就下场搅局——这波操作,格局打开。

参考链接:
https://x.com/poolsideai/status/2049144111626670282