200毫秒。

大概就是你眨一下眼的时间。

现在有个叫 EdgeVeda 的开源项目声称,能在手机上用 Flutter 跑大模型,而且首字延迟(TTFT)能压到 200ms 以内。

听着是不是特诱人?

别急着冲。

看看评论区已经炸锅,有人直接开喷:这玩意儿全是假的,连真正的 Metal 加速都没有!

移动端 AI 的“瑞士”野心

咱们先看看这项目到底想干嘛。

作者是个狠人,觉得现在移动端 AI 又慢又贵。你想啊,现在的创业公司大多是在做 API 的二道贩子,套个壳调用 OpenAI 或者 Claude。

这玩意儿做个 Demo 还行,真要上生产环境?

image

1000ms 往上的网络延迟能把用户体验磨没,月底一算账单,那推理费用能把利润吃干抹净。

EdgeVeda 的野心很大,想做 "Edge AI 的瑞士"。

意思就是完全中立、本地化的统一引擎。

它想帮你搞定那些脏活累活,比如 iOS 的 Metal、Android 的 Vulkan/NNAPI 硬件适配。你只管写 Flutter 代码,剩下的交给它。

架构图美如画

老实讲,光看它列出的特性,你很难不被打动。

为了解决 Dart FFI 是同步调用、会卡死 UI 的问题,它搞了一堆 Worker:

  • StreamingWorker 跑文本模型
  • VisionWorker 跑视觉模型(大概 600MB)
  • WhisperWorker 跑语音识别

核心思想很明确:模型只加载一次,常驻内存。别每次对话都重新加载,那太慢了。它还支持多轮对话的自动总结,上下文溢出也不怕。

甚至为了照顾不同配置的手机,它还搞了个 "Smart Model Advisor"。

这东西能检测你的 iPhone 型号、内存大小、芯片代次,给你打分(0-100分),然后告诉你这手机适合跑哪个模型。

这套逻辑听起来无懈可击,对吧?

代码不会撒谎,但人会

但有意思的是,技术细节越丰满,打脸的时候就越响。

热门评论里有个大佬,直接把这项目称为 "LLM-generated-slop"(AI 生成的垃圾)。

这话说得够损。

"This is LLM-generated-slop."

image

他扒了代码,发现了几个硬伤:

  1. 仓库里还有空的 React Native/Kotlin 项目目录,看着像半成品。
  2. 最致命的一点,声称的 Metal/Vulkan/NNAPI 支持,其实代码里就只有几个枚举定义,根本没真正的实现代码。
  3. 关于那个 200ms 延迟,大佬直接判了死刑:在手机本地几乎不可能实现,除非你是在桌面级 GPU 上跑个极小的 3B 模型。

理想与现实

这就很尴尬了。

一方面是作者对解决移动端 AI 痛点的执着,想摆脱云端 API 的束缚和巨额账单;另一方面是赤裸裸的代码现实,承诺没兑现。

个人觉得,这种冲突在开源圈太常见了。

大家都想抢 "本地 AI" 这个风口,都想做那个颠覆者。但底层的硬件适配(尤其是 iOS 的 Metal 和 Android 的 NNAPI)是个硬骨头,没那么好啃。

EdgeVeda 的架构图确实画得漂亮,什么 Scheduler、RuntimePolicy、TelemetryService,看起来像个成熟的工业级产品。但如果底层的引擎(Engine)只是个空壳,上面的装修再豪华也是空中楼阁。

真的是“瑞士”吗?

作者说想做 "Edge AI 的瑞士",保持中立,只关注推理。

但现在的状况更像是:它还没拿到瑞士的永久居留权,就被邻居举报了。

对于开发者来说,这其实是个警示。

image

我们在 GitHub 上看到那些令人兴奋的 "黑科技" 时,往往容易忽略评论区的声音。尤其是这种涉及到底层系统调用的项目,如果没有扎实的代码支撑,PPT 做得再好也没用。

200ms 的梦想很丰满,但代码很骨感。

EdgeVeda 到底是边缘计算的里程碑,还是又一个被捧上神坛的 PPT 项目?

我们拭目以待

参考链接:
https://github.com/ramanujammv1988/edge-veda