在手机上跑大模型延迟低于200ms？这个刚登GitHub热榜的Flutter项目，却被骂惨了

200毫秒。

大概就是你眨一下眼的时间。

现在有个叫 EdgeVeda 的开源项目声称，能在手机上用 Flutter 跑大模型，而且首字延迟（TTFT）能压到 200ms 以内。

听着是不是特诱人？

别急着冲。

看看评论区已经炸锅，有人直接开喷：这玩意儿全是假的，连真正的 Metal 加速都没有！

咱们先看看这项目到底想干嘛。

作者是个狠人，觉得现在移动端 AI 又慢又贵。你想啊，现在的创业公司大多是在做 API 的二道贩子，套个壳调用 OpenAI 或者 Claude。

这玩意儿做个 Demo 还行，真要上生产环境？

1000ms 往上的网络延迟能把用户体验磨没，月底一算账单，那推理费用能把利润吃干抹净。

EdgeVeda 的野心很大，想做 "Edge AI 的瑞士"。

意思就是完全中立、本地化的统一引擎。

它想帮你搞定那些脏活累活，比如 iOS 的 Metal、Android 的 Vulkan/NNAPI 硬件适配。你只管写 Flutter 代码，剩下的交给它。

老实讲，光看它列出的特性，你很难不被打动。

为了解决 Dart FFI 是同步调用、会卡死 UI 的问题，它搞了一堆 Worker：

核心思想很明确：模型只加载一次，常驻内存。别每次对话都重新加载，那太慢了。它还支持多轮对话的自动总结，上下文溢出也不怕。

甚至为了照顾不同配置的手机，它还搞了个 "Smart Model Advisor"。

这东西能检测你的 iPhone 型号、内存大小、芯片代次，给你打分（0-100分），然后告诉你这手机适合跑哪个模型。

这套逻辑听起来无懈可击，对吧？

但有意思的是，技术细节越丰满，打脸的时候就越响。

热门评论里有个大佬，直接把这项目称为 "LLM-generated-slop"（AI 生成的垃圾）。

这话说得够损。

"This is LLM-generated-slop."

他扒了代码，发现了几个硬伤：

这就很尴尬了。

一方面是作者对解决移动端 AI 痛点的执着，想摆脱云端 API 的束缚和巨额账单；另一方面是赤裸裸的代码现实，承诺没兑现。

个人觉得，这种冲突在开源圈太常见了。

大家都想抢 "本地 AI" 这个风口，都想做那个颠覆者。但底层的硬件适配（尤其是 iOS 的 Metal 和 Android 的 NNAPI）是个硬骨头，没那么好啃。

EdgeVeda 的架构图确实画得漂亮，什么 Scheduler、RuntimePolicy、TelemetryService，看起来像个成熟的工业级产品。但如果底层的引擎（Engine）只是个空壳，上面的装修再豪华也是空中楼阁。

作者说想做 "Edge AI 的瑞士"，保持中立，只关注推理。

但现在的状况更像是：它还没拿到瑞士的永久居留权，就被邻居举报了。

对于开发者来说，这其实是个警示。

我们在 GitHub 上看到那些令人兴奋的 "黑科技" 时，往往容易忽略评论区的声音。尤其是这种涉及到底层系统调用的项目，如果没有扎实的代码支撑，PPT 做得再好也没用。

200ms 的梦想很丰满，但代码很骨感。

EdgeVeda 到底是边缘计算的里程碑，还是又一个被捧上神坛的 PPT 项目？

我们拭目以待

参考链接：
https://github.com/ramanujammv1988/edge-veda