17,000 tokens 每秒!
就在前几天,一家叫 Taalas 的小公司扔出了一颗核弹,
他们把 AI 模型直接“刻”进了芯片里,
一举打破当前令人抓狂的 AI 算力瓶颈。
你是否体验过那种
“还没来得及眨眼,答案就已经刷满屏幕”的感觉?
现在的 AI,聪明是聪明,但太慢了,也太贵了。
你在用 Coding 助手写代码时,经常要盯着屏幕发呆几十秒,甚至几分钟,思路全断;
你想让 AI 帮你做实时决策,它却慢得像个正在拨号上网的老大爷。
更别提背后那惊人的电费和像迷宫一样复杂的数据中心。
这不是演习,速度真的炸了
每秒 17,000 tokens。
这是什么概念?
目前市面上最顶尖的 GPU(如 H200),跑起来大概也就几百 tokens 每秒,而最牛逼的 ASIC,跑到一两千 tokens 已经是惊为天人。
Taalas 这一出手,直接把速度拉高了近 10 倍。
更夸张的是成本,造这玩意儿比传统方案便宜 20 倍,功耗还只有原来的 1/10**!**
图:Taalas HC1 开发板,上面硬连着 Llama 3.1 8B 模型
为了证明这不是 PPT,他们直接把自家的第一个产品,硬连线版的 Llama 3.1 8B 模型**,**扔到了网上。
有试过的网友在评论区惊呼:“Holy cow(我的天),这聊天应用太疯狂了!我第一反应以为自己是不小心把答案粘贴上去了,因为它真的是在一瞬间就蹦出来了。”
这种体验,完全颠覆了我们现在对“等待 AI 生成”的认知。
既然软件跑不快,那就变成硬件
为什么 Taalas 能这么快?
因为他们做了一个看似复古,实则极其激进的决定:
**不再用通用芯片(****如 **GPU)去跑软件模型,而是为每一个 AI 模型单独设计一颗芯片。
现在的 AI,大多仍然跑在通用计算架构之上。
计算单元在一边,内存(RAM)在另一边,中间隔着那道著名的“内存墙”,
数据搬运要花大量时间,还得搞什么 HBM、先进封装、液冷散热,搞得极其复杂,就为了填补这个坑。
作为新生代芯片公司,Taalas 肯定不能再****填坑了。
他们直接把存储和计算融合在了一颗芯片上,什么花里胡哨的高带宽内存、高速 IO 统统不需要。
这就是所谓的“Hardcore Models”。
你给我一个模型,我两个月内就能把它变成硅片。模型的结构变成了电路,参数变成了晶体管。
现在做近存计算的公司的不少,但 **Taalas **提供的极致性能,正是来源于这种极致的专用设计。
图:Taalas HC1(最右侧)在 Llama 3.1 8B 上的速度表现
24 人团队颠覆全场
搞出这种颠覆性玩意的,不是拥有几万工程师的巨头,而是一个只有 24 人 的小团队。
而且,他们只花了 3000 万美元。
有点离谱。
要知道,现在那些搞 AI 大模型的或者做 AI 芯片的创业公司,融个几亿美金都觉得自己“穿得少”。
对此,Taalas 在文章里毫不客气地吐槽:
“现在的深度科技创业公司,解决问题的方式像中世纪的军队围城——人海战术、挥金如土、 hype 满天飞,把清晰的思考都淹没了。”
Taalas 就像是一支特种部队,搞“精准打击”。
他们的第一代产品用的是 TSMC 6nm 工艺,880 平方毫米的晶圆上塞了 530 亿个晶体管。
虽然为了塞进去,他们用了激进的 3-bit 和 6-bit 混合量化(这会让模型精度稍微掉一点),但换来的是极致的效率。
他们承认,目前的这个 Llama 3.1 8B 版本并不是最聪明的模型,甚至因为量化原因,准确率不如 GPU 跑的版本。
但这重要吗?
重新定义“快”的价值
评论区里有个网友的吐槽特别精辟:
“我从未如此快地得到过错误的答案,Wow!”
虽然是个玩笑,但点出了一个关键逻辑:在特定的场景下,速度 > 智力。
现在的 AI 圈太卷“智商”了,好像模型不比肩 GPT-4 就不配出门。但实际上,大量的应用场景根本不需要那么聪明的脑子,它们需要的是即时反馈。
比如把用户的自然语言搜索转换成结构化指令,比如代码补全,比如实时的语音对话。
在毫秒级的响应速度下,很多以前想都不敢想的应用突然就变得可行了。
你甚至可以串联起好几个 AI Agent,让它们像流水线一样处理任务,而用户根本感觉不到延迟。
正如另一位网友所说:
“17k tokens/sec 不仅仅改变了部署成本,它改变了对‘评估’的定义。以前我们设计的 MMLU 测试都是按人脑节奏来的,现在这个速度,你可以在跑一个基准测试的时间里,跑完上万次对抗性 Agent 交互。”
未来的 AI,可能不再需要数据中心
Taalas 的野心不止于此。
他们今年春天会推出基于第一代硬件的中型推理模型,冬天还会用第二代平台(HC2)搞定前沿大模型。
我个人觉得,这条路如果走通了,整个 AI 硬件的格局真的要变。
我们现在的惯性思维是:AI = 巨大的数据中心 + 巨大的能耗。
但 Taalas 让我们想起了当年的 ENIAC。那个占满屋子的庞然大物,最终被 transistor(晶体管)送进了博物馆,进化成了 PC 和手机。
通用计算之所以普及,是因为它变得便宜、快速、易得。
AI 也一样。
如果有一天,你的电脑里插着一块专门的卡,上面“刻”着你最常用的那个模型,它不需要联网,不需要风扇狂转,甚至不需要电池焦虑。
那才是真正的“Ubiquitous AI”(无处不在的 AI)。
现在,Taalas 已经把这块敲门砖扔出来了。
至于开发者们能用这种“瞬时 AI”玩出什么花样,我想,答案应该很快就会揭晓。
参考链接:
https://taalas.com/the-path-to-ubiquitous-ai/