200毫秒。
大概就是你眨一下眼的时间。
现在有个叫 EdgeVeda 的开源项目声称,能在手机上用 Flutter 跑大模型,而且首字延迟(TTFT)能压到 200ms 以内。
听着是不是特诱人?
别急着冲。
看看评论区已经炸锅,有人直接开喷:这玩意儿全是假的,连真正的 Metal 加速都没有!
移动端 AI 的“瑞士”野心
咱们先看看这项目到底想干嘛。
作者是个狠人,觉得现在移动端 AI 又慢又贵。你想啊,现在的创业公司大多是在做 API 的二道贩子,套个壳调用 OpenAI 或者 Claude。
这玩意儿做个 Demo 还行,真要上生产环境?
1000ms 往上的网络延迟能把用户体验磨没,月底一算账单,那推理费用能把利润吃干抹净。
EdgeVeda 的野心很大,想做 "Edge AI 的瑞士"。
意思就是完全中立、本地化的统一引擎。
它想帮你搞定那些脏活累活,比如 iOS 的 Metal、Android 的 Vulkan/NNAPI 硬件适配。你只管写 Flutter 代码,剩下的交给它。
架构图美如画
老实讲,光看它列出的特性,你很难不被打动。
为了解决 Dart FFI 是同步调用、会卡死 UI 的问题,它搞了一堆 Worker:
- StreamingWorker 跑文本模型
- VisionWorker 跑视觉模型(大概 600MB)
- WhisperWorker 跑语音识别
核心思想很明确:模型只加载一次,常驻内存。别每次对话都重新加载,那太慢了。它还支持多轮对话的自动总结,上下文溢出也不怕。
甚至为了照顾不同配置的手机,它还搞了个 "Smart Model Advisor"。
这东西能检测你的 iPhone 型号、内存大小、芯片代次,给你打分(0-100分),然后告诉你这手机适合跑哪个模型。
这套逻辑听起来无懈可击,对吧?
代码不会撒谎,但人会
但有意思的是,技术细节越丰满,打脸的时候就越响。
热门评论里有个大佬,直接把这项目称为 "LLM-generated-slop"(AI 生成的垃圾)。
这话说得够损。
"This is LLM-generated-slop."
他扒了代码,发现了几个硬伤:
- 仓库里还有空的 React Native/Kotlin 项目目录,看着像半成品。
- 最致命的一点,声称的 Metal/Vulkan/NNAPI 支持,其实代码里就只有几个枚举定义,根本没真正的实现代码。
- 关于那个 200ms 延迟,大佬直接判了死刑:在手机本地几乎不可能实现,除非你是在桌面级 GPU 上跑个极小的 3B 模型。
理想与现实
这就很尴尬了。
一方面是作者对解决移动端 AI 痛点的执着,想摆脱云端 API 的束缚和巨额账单;另一方面是赤裸裸的代码现实,承诺没兑现。
个人觉得,这种冲突在开源圈太常见了。
大家都想抢 "本地 AI" 这个风口,都想做那个颠覆者。但底层的硬件适配(尤其是 iOS 的 Metal 和 Android 的 NNAPI)是个硬骨头,没那么好啃。
EdgeVeda 的架构图确实画得漂亮,什么 Scheduler、RuntimePolicy、TelemetryService,看起来像个成熟的工业级产品。但如果底层的引擎(Engine)只是个空壳,上面的装修再豪华也是空中楼阁。
真的是“瑞士”吗?
作者说想做 "Edge AI 的瑞士",保持中立,只关注推理。
但现在的状况更像是:它还没拿到瑞士的永久居留权,就被邻居举报了。
对于开发者来说,这其实是个警示。
我们在 GitHub 上看到那些令人兴奋的 "黑科技" 时,往往容易忽略评论区的声音。尤其是这种涉及到底层系统调用的项目,如果没有扎实的代码支撑,PPT 做得再好也没用。
200ms 的梦想很丰满,但代码很骨感。
EdgeVeda 到底是边缘计算的里程碑,还是又一个被捧上神坛的 PPT 项目?
我们拭目以待
参考链接:
https://github.com/ramanujammv1988/edge-veda