你猜怎么着?现在一台 laptop 的 AI 安全能力,已经快追上 GPT-5.4 了。

不是几千块一个月的 API 调用费,不是数据中心里那些烧电如喝水的 GPU 集群——

就是一台 MacBook Pro M5,揣兜里就能走的那种。

93.8%。

这是阿里 Qwen3.5-9B 在一块 M5 芯片上跑出来的分数。

GPT-5.4 呢?97.9%。

差了4.1 分

AI配图

是不是觉得我在逗你?没有。

这帮人和"家庭安全"较上劲了

事情是这样的。

一个叫 SharpAI 的团队做了个 benchmark,叫 HomeSec-Bench。翻译成人话就是——

他们给 AI 出了一套"家庭安防高考题"。

不是那种泛泛的"写首诗来看看你智商多少"的测试。这套题极度垂直:

  • 怎么从 3 个摄像头的画面里判断是不是同一个人?(事件去重)
  • 遇到"半夜门口有个戴口罩的鬼祟身影",该判断成哪个级别?(安全分类:Normal → Monitor → Suspicious → Critical)
  • 有人试图用文字诱导 AI 偷数据,怎么防得住?(提示注入抵抗)
  • 能不能在多轮对话里记住上下文?(多轮推理)

整整 96 道题,覆盖 15 个能力项。

有意思的是,这套题全是 AI 生成的虚拟场景——没有真实用户的监控画面,保护隐私这块算是玩明白了。

跑分现场:本地 vs 云端

直接上数据:

排名 模型 类型 通过率
🥇 GPT-5.4 ☁️ 云端 97.9%
🥈 GPT-5.4-mini ☁️ 云端 95.8%
🥉 Qwen3.5-9B 🏠 本地 93.8%
🥉 Qwen3.5-27B 🏠 本地 93.8%
5 Qwen3.5-122B-MoE 🏠 本地 92.7%
5 GPT-5.4-nano ☁️ 云端 92.7%

看到了吗?

一个 9B 参数的模型,在一台 laptop 上跑,分数和 GPT-5.4-mini 只差 2 分。

甚至比 GPT-5.4-nano 还高 1 分。

而且这还是"离线"跑出来的——没有网络调用,没有 API 费用,数据一滴都不流出你的电脑

速度方面:

  • Qwen3.5-9B:25 tok/s,首 token 延迟 765ms
  • Qwen3.5-35B-MoE:41.9 tok/s,首 token 延迟 435ms——比所有 OpenAI 云端模型都快

内存占用更离谱:

  • Qwen3.5-9B 只用了 13.8 GB 统一内存
  • 一台 64GB 的 MacBook Pro M5 就能跑得飞起

这事为什么炸裂?

让我说几点:

第一,省钱。

GPT-5.4 调用一次多少钱?按 token 收费,跑这种安全监控场景,量大了一点都不便宜。

但 Qwen3.5-9B 跑在本地,一次 API 费用都没有。买电脑的钱一次性付清,之后白用。

第二,隐私。

家庭监控视频这种敏感东西,你放心让它经过第三方服务器吗?

本地部署意味着:数据从摄像头进,从你的脑子出,中间不经过任何云。

这才是真正的"端侧 AI"。

第三,延迟。

Qwen3.5-35B-MoE 的首 token 响应时间是 435ms,比 GPT-5.4-nano 的 508ms 还快。

AI配图

对于安防这种场景——

"门口有人。"

"好的,马上报警。"

这中间的响应时间,是要命的。

但别高兴太早

评论区有人泼了盆冷水:

"这 benchmark 测试的都是些简单任务,一年前的开放权重模型都能搞定。"

说实话,这条评论有一定道理。

HomeSec-Bench 确实是针对"家庭安防"这个垂直场景设计的,任务相对具体和结构化。换到更开放、更复杂的通用场景,本地模型能不能打还得画个问号。

另外还有个现实问题:

"做安防系统最难的不是技术,是合规。保险公司的报警证书、法律层面的责任认定,这些门槛比写代码高多了。"

一位评论者直接点破了——

"技术越来越便宜,但合规的坑,一个都绕不过。"

而且目前跑本地 AI 的门槛,大概是 2500 刀左右。一台高配 MacBook 的价格。

AI配图

这个成本,对普通家庭来说还是不低的。

所以到底意味着什么?

我在想一个画面——

以前我们买电脑,看 CPU 看显卡。现在,可能会多一个维度:能不能跑本地大模型。

以后每个家庭买房子的时候,可能顺带会买一个"AI 大脑"。它帮你管安全、管日程、管隐私。

你的手机是你的入口,AI 是那个藏在家里的"隐形管家"。

而这一次,跑在最前面的不是硅谷那帮巨头,而是一块 M5 芯片。

这可能是消费级硬件第一次,在 AI 能力上,和云端算力正面刚了一波。


【MiniMax-M2.5锐评】:云端 AI 吹了这么多年,本地模型用 4 分的差距告诉所有人:不一定非得上云。问题是,便宜和隐私的代价,你真的愿意扛吗?

参考链接:
https://www.sharpai.org/benchmark/