27,000次追问,同一张照片,没有两个答案是一样的

想象一下这个场景。

你对着午餐拍了张照,传给App。App里的AI告诉你:这顿饭有55克碳水化合物,打4.5单位胰岛素。

你觉得挺靠谱。第二天同一时刻,同一张照片,同一个问题。

AI说:484克碳水化合物,打48个单位。

同一张照片。同一碗饭。

差出来42.9个单位胰岛素。

这意味着什么?重度低血糖。昏迷。急救车。甚至死亡。

这不是科幻恐怖片。这是真实的研究数据。

一位研究者把13张真实食物照片,分别传给四个最先进的AI模型——GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro、Gemini 3.1 Pro。每个模型问500多次同样的问题。

总计27,000次查询。

结论让人后背发凉:没有任何一个模型能给出稳定的答案。

一张奶酪三明治,AI是怎么把40克算成28克的

有些食物,按理说应该超级简单。

两张白面包,包装上写着每片20克碳水。夹一片奶酪,几乎可以忽略不计。标准答案:40克。

拍个照,传给AI。

GPT-5.4说:74克。几乎翻倍。

另外三个模型——Claude、Gemini 2.5 Pro、Gemini 3.1 Pro——异口同声说:28克。

AI配图

512次查询,每次都是28克。稳定得像瑞士钟表。

但标准答案是40克。

持续低估12克。按1:10的碳水胰岛素比值算,每次打针少打1.2单位胰岛素。一天三顿饭,3.6单位。

这就是"精确的错误"。AI特别有信心地给你一个完全错的答案,还每次都错得一模一样。

你说这和"每次随机错"哪个更可怕?

认错食物这种事儿,AI干得理直气壮

更离谱的是,AI有时候根本不知道自己看的是什么。

13张测试照片里,8张被AI认错。

Bakewell塔,AI叫它"林茨塔"。完全两种甜点。

Crema catalana(西班牙焦糖蛋奶),三个模型100%叫它"法式焦糖布丁"。只有Gemini 3.1 Pro有3.4%的概率碰巧说对。

奶酪三明治更魔幻。Gemini 3.1 Pro有17.4%的概率在答案里给你加几片"熟食肉"。照片里根本没有的东西,AI凭想象给你加戏。

这些认错直接影响碳水计算。你让AI算一个不存在的东西的碳水,它能给你算出什么来,只有天知道。

37%的概率,打出危险剂量

研究者手上有5张有确切答案的照片——包装袋标明的碳水,或者精确称重的食物。

他逐一检查:如果AI的建议被采纳,会打成什么情况。

绿色区域:误差小于1单位。安全。
黄色:误差1-2单位。还能忍。
橙色:误差2-5单位。临床显著风险。
红色:误差超过5单位。严重低血糖,需要外人帮忙。

结果如下:

Claude100%在绿色或黄色区间。没有一次超过2单位误差。四个模型里最稳。

GPT-5.437%的查询落在橙色或红色区域。每三次问,至少有一次会打出临床上危险的胰岛素剂量。

Gemini 3.1 Pro Preview12%的查询会产生超过2单位的误差。

Gemini 2.5 Pro12%的查询会产生超过5单位的误差。单次最大误差是11.3单位。

11.3单位。对于一顿34克的饭来说,这剂量打下去,人可能直接送急诊。

AI说"我有80%把握"——这话你能信吗?

研究者还测了一个关键指标:AI的自信度。

他让每个模型给自己的答案打分,0到1。

AI配图

结果?

Claude的自信度和准确率完全无关。它有80%自信的时候,可能对了,也可能错了。更诡异的是,Claude越自信(超过0.85),答案反而越不准(平均误差17.3克)。它谦虚一点的时候,反而更准(平均误差9.1克)。

Gemini更夸张。Gemini 2.5 Pro对86%的食物给出超过0.9的自信分。Gemini 3.1 Pro是76%。也就是说,AI对几乎所有答案都声称"我非常确定"。

问题是,这些答案可能差出几百克。

所谓的自信度,不是校准过的不确定性信号。它是AI在假装自己很靠谱。

唯一的办法是什么?多问几次,观察答案的分布。如果500次里前10次就飘出去几百克,那显然有问题。但App只会给你一次机会。

这不是AI的错,这是人类的错

说实话,看完这篇研究,我最大的感触是:问题根本不在AI。

AI是概率模型,它本来就不会给你同样的答案。这不是bug,这是基本工作原理。

问题在于:为什么有人会把这种技术用到糖尿病管理上?

AI配图

碳水计数直接决定胰岛素剂量。差1单位可能让你头晕,差5单位可能让你昏迷,差10单位可能救不回来。

这是容错率为零的场景。

结果呢?应用商店里一堆App,打着"AI帮你数碳水"的旗号,用户可能以为这是什么神奇的黑科技。

实际上?同一碗饭,这次告诉你55克,下次告诉你484克。

用户还蒙在鼓里。他不知道的是,App只展示一次答案,根本不告诉他背后可能差出一个胰岛素泵的剂量。

热门评论里有句话说得很扎心:"这是影响人们健康的骗局,而且还有数据证明它确实是个骗局。"

所以,糖尿病患者应该怎么办?

研究者的建议很直接:

不要信任任何单一查询。 同一个照片问3-5次,看看答案飘不飘。如果飘得厉害,说明AI自己也不确定——虽然它不会告诉你。

检查AI看到了什么。 如果你说"烤鸡",AI告诉你"鸡肉填馅",那你得小心了。它可能正在给一道不存在的菜算碳水。

知道你的模型是哪一款。 Claude是目前最稳的选择,但依然可能"精确地错"。GPT-5.4和Gemini系列的风险更高。

别让AI替你做决定。 AI可以辅助,可以参考,但胰岛素注射这种关乎生死的决定,必须经过你自己的判断。

研究者在论文里引用了DTN-UK的声明:通用大语言模型永远不能作为胰岛素输送的自主咨询计算器。

这不是保守,这是常识。

最后说几句

27,000次查询,4个最先进的AI模型,13张普普通通的食物照片。

结论是什么?

AI在需要精确答案的场景里,给不出精确答案。它甚至给不出稳定答案。

这不是批评AI。AI本来就不是为这种场景设计的。

问题是,我们是不是太把AI当回事了?

它能聊天,能写诗,能帮你写代码。这不意味着它能告诉你一顿饭该打多少胰岛素。

同一张照片问500次,得到500个不同的答案——这件事本身不可怕。

可怕的是,有人把这500个答案里的某一个,交到糖尿病患者手里,然后说:"这是AI说的,照做吧。"

【锐评】:AI在糖尿病管理上的应用,目前就是一场豪赌——患者用命在赌那个随机数生成器这次心情好不好。

参考链接:
https://www.diabettech.com/i-asked-ai-to-count-my-carbs-27000-times-it-couldnt-give-me-the-same-answer-twice/