你猜怎么着?现在一台 laptop 的 AI 安全能力,已经快追上 GPT-5.4 了。
不是几千块一个月的 API 调用费,不是数据中心里那些烧电如喝水的 GPU 集群——
就是一台 MacBook Pro M5,揣兜里就能走的那种。
93.8%。
这是阿里 Qwen3.5-9B 在一块 M5 芯片上跑出来的分数。
GPT-5.4 呢?97.9%。
差了4.1 分。
是不是觉得我在逗你?没有。
这帮人和"家庭安全"较上劲了
事情是这样的。
一个叫 SharpAI 的团队做了个 benchmark,叫 HomeSec-Bench。翻译成人话就是——
他们给 AI 出了一套"家庭安防高考题"。
不是那种泛泛的"写首诗来看看你智商多少"的测试。这套题极度垂直:
- 怎么从 3 个摄像头的画面里判断是不是同一个人?(事件去重)
- 遇到"半夜门口有个戴口罩的鬼祟身影",该判断成哪个级别?(安全分类:Normal → Monitor → Suspicious → Critical)
- 有人试图用文字诱导 AI 偷数据,怎么防得住?(提示注入抵抗)
- 能不能在多轮对话里记住上下文?(多轮推理)
整整 96 道题,覆盖 15 个能力项。
有意思的是,这套题全是 AI 生成的虚拟场景——没有真实用户的监控画面,保护隐私这块算是玩明白了。
跑分现场:本地 vs 云端
直接上数据:
| 排名 | 模型 | 类型 | 通过率 |
|---|---|---|---|
| 🥇 | GPT-5.4 | ☁️ 云端 | 97.9% |
| 🥈 | GPT-5.4-mini | ☁️ 云端 | 95.8% |
| 🥉 | Qwen3.5-9B | 🏠 本地 | 93.8% |
| 🥉 | Qwen3.5-27B | 🏠 本地 | 93.8% |
| 5 | Qwen3.5-122B-MoE | 🏠 本地 | 92.7% |
| 5 | GPT-5.4-nano | ☁️ 云端 | 92.7% |
看到了吗?
一个 9B 参数的模型,在一台 laptop 上跑,分数和 GPT-5.4-mini 只差 2 分。
甚至比 GPT-5.4-nano 还高 1 分。
而且这还是"离线"跑出来的——没有网络调用,没有 API 费用,数据一滴都不流出你的电脑。
速度方面:
- Qwen3.5-9B:25 tok/s,首 token 延迟 765ms
- Qwen3.5-35B-MoE:41.9 tok/s,首 token 延迟 435ms——比所有 OpenAI 云端模型都快
内存占用更离谱:
- Qwen3.5-9B 只用了 13.8 GB 统一内存
- 一台 64GB 的 MacBook Pro M5 就能跑得飞起
这事为什么炸裂?
让我说几点:
第一,省钱。
GPT-5.4 调用一次多少钱?按 token 收费,跑这种安全监控场景,量大了一点都不便宜。
但 Qwen3.5-9B 跑在本地,一次 API 费用都没有。买电脑的钱一次性付清,之后白用。
第二,隐私。
家庭监控视频这种敏感东西,你放心让它经过第三方服务器吗?
本地部署意味着:数据从摄像头进,从你的脑子出,中间不经过任何云。
这才是真正的"端侧 AI"。
第三,延迟。
Qwen3.5-35B-MoE 的首 token 响应时间是 435ms,比 GPT-5.4-nano 的 508ms 还快。
对于安防这种场景——
"门口有人。"
"好的,马上报警。"
这中间的响应时间,是要命的。
但别高兴太早
评论区有人泼了盆冷水:
"这 benchmark 测试的都是些简单任务,一年前的开放权重模型都能搞定。"
说实话,这条评论有一定道理。
HomeSec-Bench 确实是针对"家庭安防"这个垂直场景设计的,任务相对具体和结构化。换到更开放、更复杂的通用场景,本地模型能不能打还得画个问号。
另外还有个现实问题:
"做安防系统最难的不是技术,是合规。保险公司的报警证书、法律层面的责任认定,这些门槛比写代码高多了。"
一位评论者直接点破了——
"技术越来越便宜,但合规的坑,一个都绕不过。"
而且目前跑本地 AI 的门槛,大概是 2500 刀左右。一台高配 MacBook 的价格。
这个成本,对普通家庭来说还是不低的。
所以到底意味着什么?
我在想一个画面——
以前我们买电脑,看 CPU 看显卡。现在,可能会多一个维度:能不能跑本地大模型。
以后每个家庭买房子的时候,可能顺带会买一个"AI 大脑"。它帮你管安全、管日程、管隐私。
你的手机是你的入口,AI 是那个藏在家里的"隐形管家"。
而这一次,跑在最前面的不是硅谷那帮巨头,而是一块 M5 芯片。
这可能是消费级硬件第一次,在 AI 能力上,和云端算力正面刚了一波。
【MiniMax-M2.5锐评】:云端 AI 吹了这么多年,本地模型用 4 分的差距告诉所有人:不一定非得上云。问题是,便宜和隐私的代价,你真的愿意扛吗?
参考链接:
https://www.sharpai.org/benchmark/