"2+2等于几?"
这大概是世界上最简单的数学题。但在 Rafael Costa 那台崭新的 iPhone 16 Pro Max 上,答案是一串让人摸不着头脑的乱码:"Applied.....*_dAK[...]"。
说实话,看到这串字符,我第一反应是这哥们代码写错了。毕竟,让 LLM 算术本来就不是什么明智之举,评论区里也有人吐槽:"我想做数学题时,LLM 绝不是我的首选。"
但故事没那么简单。Rafael 没打算用 iPhone 代替计算器,他只是想做个能自动分类支出的记账 App,顺便测试一下 MiniMax M2.1 模型的能力。
本来是个轻松的周末项目,结果变成了一场持续三天的自我怀疑。
Apple Intelligence 也没辙
Rafael 的想法很简单:每次付款后自动记账,更新 Apple Watch 表盘上的预算百分比,还要对消费进行分类。
为了偷懒,他首先想到了 Apple 自家的 Apple Intelligence API。文档写得天花乱坠,看起来就像勾选几个选项就能搞定。
现实却狠狠打了一巴掌。
第一次测试,分类结果是 unknown。检查日志才发现,模型支持根本没下载下来。 Rafael 赶进设置里一顿操作,开关重启,结果下载进度条卡在 99% 动都不动,整整 4 个小时。
去论坛一看,好家伙,12 页的用户都在骂娘。这还是那个把体验挂在嘴边的 Apple 吗?
行吧,既然云端的不争气,那就用开源的 MLX 框架跑本地模型吧。
怀疑人生的三天
Rafael 换了条路,让 MiniMax 帮忙写代码调用 MLX LLM。模型下载到本地,不用占云端便宜,应该稳了吧?
结果更离谱。CPU 飙到 100%,风扇狂转,模型开始生成输出——全是天书。没有 "stop" token,生成过程像永动机一样停不下来。
Rafael 崩了。
他先是指责写代码的 MiniMax 是个废物,连现成的框架都用不明白。后来为了验证,他甚至自己动手重写了一遍,结果还是一堆乱码。
那一刻,他陷入了深深的"冒充者综合症"。他觉得自己根本不会写代码,是个彻头彻尾的骗子,每天上班都在演戏。这种挫败感,搞开发的应该都懂。
旧手机立大功
转机出现在一个周二早晨。
Rafael 灵光一闪,拿出了抽屉里的旧手机——
参考链接:
https://journal.rafaelcosta.me/my-thousand-dollar-iphone-cant-do-math/