每秒 17000 tokens！这家 24 人的芯片公司，直接把 AI 模型“刻”进芯片里

17,000 tokens 每秒！

就在前几天，一家叫 Taalas 的小公司扔出了一颗核弹，
他们把 AI 模型直接“刻”进了芯片里，

一举打破当前令人抓狂的 AI 算力瓶颈。

你是否体验过那种

“还没来得及眨眼，答案就已经刷满屏幕”的感觉？

现在的 AI，聪明是聪明，但太慢了，也太贵了。

你在用 Coding 助手写代码时，经常要盯着屏幕发呆几十秒，甚至几分钟，思路全断；

你想让 AI 帮你做实时决策，它却慢得像个正在拨号上网的老大爷。

更别提背后那惊人的电费和像迷宫一样复杂的数据中心。

这不是演习，速度真的炸了

每秒 17,000 tokens。

这是什么概念？

目前市面上最顶尖的 GPU（如 H200），跑起来大概也就几百 tokens 每秒，而最牛逼的 ASIC，跑到一两千 tokens 已经是惊为天人。

Taalas 这一出手，直接把速度拉高了近 10 倍。

更夸张的是成本，造这玩意儿比传统方案便宜 20 倍，功耗还只有原来的 1/10**！**

图：Taalas HC1 开发板，上面硬连着 Llama 3.1 8B 模型

为了证明这不是 PPT，他们直接把自家的第一个产品，硬连线版的 Llama 3.1 8B 模型**，**扔到了网上。

有试过的网友在评论区惊呼：“Holy cow（我的天），这聊天应用太疯狂了！我第一反应以为自己是不小心把答案粘贴上去了，因为它真的是在一瞬间就蹦出来了。”

这种体验，完全颠覆了我们现在对“等待 AI 生成”的认知。

既然软件跑不快，那就变成硬件

为什么 Taalas 能这么快？

因为他们做了一个看似复古，实则极其激进的决定：

**不再用通用芯片（****如 **GPU）去跑软件模型，而是为每一个 AI 模型单独设计一颗芯片。

现在的 AI，大多仍然跑在通用计算架构之上。

计算单元在一边，内存（RAM）在另一边，中间隔着那道著名的“内存墙”，

数据搬运要花大量时间，还得搞什么 HBM、先进封装、液冷散热，搞得极其复杂，就为了填补这个坑。

作为新生代芯片公司，Taalas 肯定不能再****填坑了。

他们直接把存储和计算融合在了一颗芯片上，什么花里胡哨的高带宽内存、高速 IO 统统不需要。

这就是所谓的“Hardcore Models”。

你给我一个模型，我两个月内就能把它变成硅片。模型的结构变成了电路，参数变成了晶体管。

现在做近存计算的公司的不少，但 **Taalas **提供的极致性能，正是来源于这种极致的专用设计。

图：Taalas HC1（最右侧）在 Llama 3.1 8B 上的速度表现

24 人团队颠覆全场

搞出这种颠覆性玩意的，不是拥有几万工程师的巨头，而是一个只有 24 人 的小团队。

而且，他们只花了 3000 万美元。

有点离谱。

要知道，现在那些搞 AI 大模型的或者做 AI 芯片的创业公司，融个几亿美金都觉得自己“穿得少”。

对此，Taalas 在文章里毫不客气地吐槽：

“现在的深度科技创业公司，解决问题的方式像中世纪的军队围城——人海战术、挥金如土、 hype 满天飞，把清晰的思考都淹没了。”

Taalas 就像是一支特种部队，搞“精准打击”。

他们的第一代产品用的是 TSMC 6nm 工艺，880 平方毫米的晶圆上塞了 530 亿个晶体管。

虽然为了塞进去，他们用了激进的 3-bit 和 6-bit 混合量化（这会让模型精度稍微掉一点），但换来的是极致的效率。

他们承认，目前的这个 Llama 3.1 8B 版本并不是最聪明的模型，甚至因为量化原因，准确率不如 GPU 跑的版本。

但这重要吗？

重新定义“快”的价值

评论区里有个网友的吐槽特别精辟：

“我从未如此快地得到过错误的答案，Wow！”

虽然是个玩笑，但点出了一个关键逻辑：在特定的场景下，速度 > 智力。

现在的 AI 圈太卷“智商”了，好像模型不比肩 GPT-4 就不配出门。但实际上，大量的应用场景根本不需要那么聪明的脑子，它们需要的是即时反馈。

比如把用户的自然语言搜索转换成结构化指令，比如代码补全，比如实时的语音对话。

在毫秒级的响应速度下，很多以前想都不敢想的应用突然就变得可行了。

你甚至可以串联起好几个 AI Agent，让它们像流水线一样处理任务，而用户根本感觉不到延迟。

正如另一位网友所说：

“17k tokens/sec 不仅仅改变了部署成本，它改变了对‘评估’的定义。以前我们设计的 MMLU 测试都是按人脑节奏来的，现在这个速度，你可以在跑一个基准测试的时间里，跑完上万次对抗性 Agent 交互。”

未来的 AI，可能不再需要数据中心

Taalas 的野心不止于此。

他们今年春天会推出基于第一代硬件的中型推理模型，冬天还会用第二代平台（HC2）搞定前沿大模型。

我个人觉得，这条路如果走通了，整个 AI 硬件的格局真的要变。

我们现在的惯性思维是：AI = 巨大的数据中心 + 巨大的能耗。

但 Taalas 让我们想起了当年的 ENIAC。那个占满屋子的庞然大物，最终被 transistor（晶体管）送进了博物馆，进化成了 PC 和手机。

通用计算之所以普及，是因为它变得便宜、快速、易得。

AI 也一样。

如果有一天，你的电脑里插着一块专门的卡，上面“刻”着你最常用的那个模型，它不需要联网，不需要风扇狂转，甚至不需要电池焦虑。

那才是真正的“Ubiquitous AI”（无处不在的 AI）。

现在，Taalas 已经把这块敲门砖扔出来了。

至于开发者们能用这种“瞬时 AI”玩出什么花样，我想，答案应该很快就会揭晓。

参考链接：
https://taalas.com/the-path-to-ubiquitous-ai/