17,000 tokens 每秒!

就在前几天,一家叫 Taalas 的小公司扔出了一颗核弹,
他们把 AI 模型直接“刻”进了芯片里,

一举打破当前令人抓狂的 AI 算力瓶颈。

你是否体验过那种

“还没来得及眨眼,答案就已经刷满屏幕”的感觉?

现在的 AI,聪明是聪明,但太慢了,也太贵了。

你在用 Coding 助手写代码时,经常要盯着屏幕发呆几十秒,甚至几分钟,思路全断;

你想让 AI 帮你做实时决策,它却慢得像个正在拨号上网的老大爷。

更别提背后那惊人的电费和像迷宫一样复杂的数据中心。

image

这不是演习,速度真的炸了

每秒 17,000 tokens。

这是什么概念?

目前市面上最顶尖的 GPU(如 H200),跑起来大概也就几百 tokens 每秒,而最牛逼的 ASIC,跑到一两千 tokens 已经是惊为天人。

Taalas 这一出手,直接把速度拉高了近 10 倍。

更夸张的是成本,造这玩意儿比传统方案便宜 20 倍,功耗还只有原来的 1/10**!**

image

图:Taalas HC1 开发板,上面硬连着 Llama 3.1 8B 模型

为了证明这不是 PPT,他们直接把自家的第一个产品,硬连线版的 Llama 3.1 8B 模型**,**扔到了网上。

有试过的网友在评论区惊呼:“Holy cow(我的天),这聊天应用太疯狂了!我第一反应以为自己是不小心把答案粘贴上去了,因为它真的是在一瞬间就蹦出来了。”

这种体验,完全颠覆了我们现在对“等待 AI 生成”的认知。

既然软件跑不快,那就变成硬件

为什么 Taalas 能这么快?

因为他们做了一个看似复古,实则极其激进的决定:

**不再用通用芯片(****如 **GPU)去跑软件模型,而是为每一个 AI 模型单独设计一颗芯片。

现在的 AI,大多仍然跑在通用计算架构之上。

计算单元在一边,内存(RAM)在另一边,中间隔着那道著名的“内存墙”,

数据搬运要花大量时间,还得搞什么 HBM、先进封装、液冷散热,搞得极其复杂,就为了填补这个坑。

作为新生代芯片公司,Taalas 肯定不能再****填坑了。

他们直接把存储和计算融合在了一颗芯片上,什么花里胡哨的高带宽内存、高速 IO 统统不需要。

这就是所谓的“Hardcore Models”。

你给我一个模型,我两个月内就能把它变成硅片。模型的结构变成了电路,参数变成了晶体管。

现在做近存计算的公司的不少,但 **Taalas **提供的极致性能,正是来源于这种极致的专用设计。

image

图:Taalas HC1(最右侧)在 Llama 3.1 8B 上的速度表现

24 人团队颠覆全场

搞出这种颠覆性玩意的,不是拥有几万工程师的巨头,而是一个只有 24 人 的小团队。

而且,他们只花了 3000 万美元

有点离谱。

要知道,现在那些搞 AI 大模型的或者做 AI 芯片的创业公司,融个几亿美金都觉得自己“穿得少”。

对此,Taalas 在文章里毫不客气地吐槽:

“现在的深度科技创业公司,解决问题的方式像中世纪的军队围城——人海战术、挥金如土、 hype 满天飞,把清晰的思考都淹没了。”

Taalas 就像是一支特种部队,搞“精准打击”。

他们的第一代产品用的是 TSMC 6nm 工艺,880 平方毫米的晶圆上塞了 530 亿个晶体管。

虽然为了塞进去,他们用了激进的 3-bit 和 6-bit 混合量化(这会让模型精度稍微掉一点),但换来的是极致的效率。

他们承认,目前的这个 Llama 3.1 8B 版本并不是最聪明的模型,甚至因为量化原因,准确率不如 GPU 跑的版本。

但这重要吗?

重新定义“快”的价值

评论区里有个网友的吐槽特别精辟:

“我从未如此快地得到过错误的答案,Wow!”

虽然是个玩笑,但点出了一个关键逻辑:在特定的场景下,速度 > 智力。

现在的 AI 圈太卷“智商”了,好像模型不比肩 GPT-4 就不配出门。但实际上,大量的应用场景根本不需要那么聪明的脑子,它们需要的是即时反馈

image

比如把用户的自然语言搜索转换成结构化指令,比如代码补全,比如实时的语音对话。

在毫秒级的响应速度下,很多以前想都不敢想的应用突然就变得可行了。

你甚至可以串联起好几个 AI Agent,让它们像流水线一样处理任务,而用户根本感觉不到延迟。

正如另一位网友所说:

“17k tokens/sec 不仅仅改变了部署成本,它改变了对‘评估’的定义。以前我们设计的 MMLU 测试都是按人脑节奏来的,现在这个速度,你可以在跑一个基准测试的时间里,跑完上万次对抗性 Agent 交互。”

未来的 AI,可能不再需要数据中心

Taalas 的野心不止于此。

他们今年春天会推出基于第一代硬件的中型推理模型,冬天还会用第二代平台(HC2)搞定前沿大模型。

我个人觉得,这条路如果走通了,整个 AI 硬件的格局真的要变。

我们现在的惯性思维是:AI = 巨大的数据中心 + 巨大的能耗。

image

但 Taalas 让我们想起了当年的 ENIAC。那个占满屋子的庞然大物,最终被 transistor(晶体管)送进了博物馆,进化成了 PC 和手机。

通用计算之所以普及,是因为它变得便宜、快速、易得

AI 也一样。

如果有一天,你的电脑里插着一块专门的卡,上面“刻”着你最常用的那个模型,它不需要联网,不需要风扇狂转,甚至不需要电池焦虑。

那才是真正的“Ubiquitous AI”(无处不在的 AI)。

现在,Taalas 已经把这块敲门砖扔出来了。

至于开发者们能用这种“瞬时 AI”玩出什么花样,我想,答案应该很快就会揭晓。

参考链接:
https://taalas.com/the-path-to-ubiquitous-ai/