你试过和你的电脑说话吗?
不是那种对着Siri喊“帮我定个闹钟”的简单指令,而是真正的——你一句,它一句,像两个人聊天那样。
以前不行。
以前要实现“语音对话”,你得经过三层套娃:先把你的声音变成文字(ASR),再让AI思考怎么回答(LLM),最后把文字变回声音(TTS)。三个模型,三次传递,每次都在丢失信息——你的语气、情绪、犹豫,全都没了。
但现在,有人把这个流程,打破了。
一个模型,替代三道工序
Ivan-digital 开源了一个叫做 qwen3-asr-swift 的项目。简单说,它让苹果电脑(Apple Silicon)直接跑通了 NVIDIA 的 PersonaPlex 7B——一个能“听”音频、“说”音频的端到端模型。
没有文字中转。
没有三次握手。
用户说话 → 模型直接输出语音。
这就是所谓的 Full-Duplex(全双工):它听的时候同时在说,边听边生成,延迟低到 68毫秒一步,比实时还快。
所谓 RTF(Real-Time Factor)0.87,意思是它生成语音的速度,比你听这段语音还快。
模型多大?
原始版本 16.7 GB。Ivan 把它做成了 4-bit 量化版本,压缩到 5.3 GB。一台 M2 Max MacBook(64GB内存)就能跑。
这放在以前是不可想象的。
它是怎么做到的?
核心在于 Mimi 音频编解码器 + 17路并行token流。
传统模型处理声音,是一段一段来的。PersonaPlex 不一样——它同时跑17条“流”:1条文本流 + 8路用户音频编码 + 8路AI音频编码。所有信息在一个 Transformer 里fusion,出来的直接是音频。
用作者自己的话说:
“我们把 TTS 那边的 Mimi Codec 直接搬过来用了。零改动。因为它本来就是同一套东西。”
这叫什么?这叫站在巨人的肩膀上——Kyutai 的 Moshi 架构、NVIDIA 的 PersonaPlex、阿里 Qwen 的 ASR/TTS、苹果的 MLX 框架。四家人马,拼出一台本地运行的语音对话引擎。
等等,评论区的反馈有点上头
但是。
当我翻到热门评论区的时候,氛围突然从“技术突破”变成了“大型翻车现场”。
有用户实测后破防:
"Built out the demo on my M1 Max Macbook and it was absolutely terrible. Around 10 seconds for each reply, and even then it was saying something totally unrelated."
一台 M1 Max MacBook,回复要 10秒,而且答非所问。
还有更直接的:
"Cool demo but without tool calling this is basically a fast parrot. The traditional pipeline is slower but at least you can plug in a real brain."
没有 tool calling(工具调用),它就是个“更快的鹦鹉”。传统管道虽然慢,但至少能接上真正的“大脑”(指接驳更强的 LLM)。
甚至有人下了结论:
"I would skip this for now - it does not allow any kind of interactive conversation - as I learned after downloading 5G of models - it's a proof of concept that takes a wav file in."
5个G下载完,结果发现它不能交互对话,只是一个“概念验证”——喂进去一个 wav 文件,等它输出一个 wav 文件,然后就结束了。
这就很尴尬了。
真相到底是什么?
让我捋一捋:
它能做的:
- 在苹果电脑上本地运行(不需要联网,不需要服务器)
- 语音进、语音出,单模型端到端
- 速度快,确实快于实时
- 支持流式输出(streaming),可以边生成边播放
它不能做的:
- 目前不支持 tool calling(不能帮你查天气、订机票、调API)
- 不是真正的“对话”——你不能打断它,它也不能多轮交互
- 实际体验取决于硬件配置,不是所有 Mac 都能流畅运行
- 官方演示用的是 wav 文件输入,不是实时麦克风
换句话说,这是一个 技术demo,而不是一个 可用产品。
所以它意义在哪?
坦白讲,这条新闻让我兴奋的不是“它能做什么”,而是**“它证明了什么”**。
以前大家总觉得,语音 AI 必须依赖云端算力——你得把声音传到服务器,服务器处理完再传回来。但 PersonaPlex 在一台消费级 MacBook 上跑通了,而且 RTF 0.87。
这说明什么?
端侧语音交互,不是能不能的问题,是有多快的问题。
今天是一个 7B 模型,明天可能是 8B、14B。今天只能处理 wav 文件,明天可能就是实时麦克风输入。今天是“鹦鹉”,明天加上 tool calling,就是真正的语音助手。
这条路的尽头,是每个人都可以在本地跑自己的 AI 助手——不需要联网,不需要隐私泄露,随时随地能对话。
路还长,但至少,方向对了。
想尝鲜的,可以去 GitHub 搜 ivan-digital/qwen3-asr-swift,模型在 HuggingFace aufklarer/PersonaPlex-7B-MLX-4bit。
记得先确认你的 Mac 内存够 64GB。
【MiniMax-M2.5锐评】:技术demo和可用产品之间,隔着100个tool calling。
参考链接:
https://blog.ivan.digital/nvidia-personaplex-7b-on-apple-silicon-full-duplex-speech-to-speech-in-native-swift-with-mlx-0aa5276f2e23