同一张照片，AI给糖尿病患者的胰岛素建议能差出42个单位

27,000次追问，同一张照片，没有两个答案是一样的

想象一下这个场景。

你对着午餐拍了张照，传给App。App里的AI告诉你：这顿饭有55克碳水化合物，打4.5单位胰岛素。

你觉得挺靠谱。第二天同一时刻，同一张照片，同一个问题。

AI说：484克碳水化合物，打48个单位。

同一张照片。同一碗饭。

差出来42.9个单位胰岛素。

这意味着什么？重度低血糖。昏迷。急救车。甚至死亡。

这不是科幻恐怖片。这是真实的研究数据。

一位研究者把13张真实食物照片，分别传给四个最先进的AI模型——GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro、Gemini 3.1 Pro。每个模型问500多次同样的问题。

总计27,000次查询。

结论让人后背发凉：没有任何一个模型能给出稳定的答案。

一张奶酪三明治，AI是怎么把40克算成28克的

有些食物，按理说应该超级简单。

两张白面包，包装上写着每片20克碳水。夹一片奶酪，几乎可以忽略不计。标准答案：40克。

拍个照，传给AI。

GPT-5.4说：74克。几乎翻倍。

另外三个模型——Claude、Gemini 2.5 Pro、Gemini 3.1 Pro——异口同声说：28克。

AI配图

512次查询，每次都是28克。稳定得像瑞士钟表。

但标准答案是40克。

持续低估12克。按1:10的碳水胰岛素比值算，每次打针少打1.2单位胰岛素。一天三顿饭，3.6单位。

这就是"精确的错误"。AI特别有信心地给你一个完全错的答案，还每次都错得一模一样。

你说这和"每次随机错"哪个更可怕？

认错食物这种事儿，AI干得理直气壮

更离谱的是，AI有时候根本不知道自己看的是什么。

13张测试照片里，8张被AI认错。

Bakewell塔，AI叫它"林茨塔"。完全两种甜点。

Crema catalana（西班牙焦糖蛋奶），三个模型100%叫它"法式焦糖布丁"。只有Gemini 3.1 Pro有3.4%的概率碰巧说对。

奶酪三明治更魔幻。Gemini 3.1 Pro有17.4%的概率在答案里给你加几片"熟食肉"。照片里根本没有的东西，AI凭想象给你加戏。

这些认错直接影响碳水计算。你让AI算一个不存在的东西的碳水，它能给你算出什么来，只有天知道。

37%的概率，打出危险剂量

研究者手上有5张有确切答案的照片——包装袋标明的碳水，或者精确称重的食物。

他逐一检查：如果AI的建议被采纳，会打成什么情况。

绿色区域：误差小于1单位。安全。
黄色：误差1-2单位。还能忍。
橙色：误差2-5单位。临床显著风险。
红色：误差超过5单位。严重低血糖，需要外人帮忙。

结果如下：

Claude：100%在绿色或黄色区间。没有一次超过2单位误差。四个模型里最稳。

GPT-5.4：37%的查询落在橙色或红色区域。每三次问，至少有一次会打出临床上危险的胰岛素剂量。

Gemini 3.1 Pro Preview：12%的查询会产生超过2单位的误差。

Gemini 2.5 Pro：12%的查询会产生超过5单位的误差。单次最大误差是11.3单位。

11.3单位。对于一顿34克的饭来说，这剂量打下去，人可能直接送急诊。

AI说"我有80%把握"——这话你能信吗？

研究者还测了一个关键指标：AI的自信度。

他让每个模型给自己的答案打分，0到1。

AI配图

结果？

Claude的自信度和准确率完全无关。它有80%自信的时候，可能对了，也可能错了。更诡异的是，Claude越自信（超过0.85），答案反而越不准（平均误差17.3克）。它谦虚一点的时候，反而更准（平均误差9.1克）。

Gemini更夸张。Gemini 2.5 Pro对86%的食物给出超过0.9的自信分。Gemini 3.1 Pro是76%。也就是说，AI对几乎所有答案都声称"我非常确定"。

问题是，这些答案可能差出几百克。

所谓的自信度，不是校准过的不确定性信号。它是AI在假装自己很靠谱。

唯一的办法是什么？多问几次，观察答案的分布。如果500次里前10次就飘出去几百克，那显然有问题。但App只会给你一次机会。

这不是AI的错，这是人类的错

说实话，看完这篇研究，我最大的感触是：问题根本不在AI。

AI是概率模型，它本来就不会给你同样的答案。这不是bug，这是基本工作原理。

问题在于：为什么有人会把这种技术用到糖尿病管理上？

AI配图

碳水计数直接决定胰岛素剂量。差1单位可能让你头晕，差5单位可能让你昏迷，差10单位可能救不回来。

这是容错率为零的场景。

结果呢？应用商店里一堆App，打着"AI帮你数碳水"的旗号，用户可能以为这是什么神奇的黑科技。

实际上？同一碗饭，这次告诉你55克，下次告诉你484克。

用户还蒙在鼓里。他不知道的是，App只展示一次答案，根本不告诉他背后可能差出一个胰岛素泵的剂量。

热门评论里有句话说得很扎心："这是影响人们健康的骗局，而且还有数据证明它确实是个骗局。"

所以，糖尿病患者应该怎么办？

研究者的建议很直接：

不要信任任何单一查询。 同一个照片问3-5次，看看答案飘不飘。如果飘得厉害，说明AI自己也不确定——虽然它不会告诉你。

检查AI看到了什么。 如果你说"烤鸡"，AI告诉你"鸡肉填馅"，那你得小心了。它可能正在给一道不存在的菜算碳水。

知道你的模型是哪一款。 Claude是目前最稳的选择，但依然可能"精确地错"。GPT-5.4和Gemini系列的风险更高。

别让AI替你做决定。 AI可以辅助，可以参考，但胰岛素注射这种关乎生死的决定，必须经过你自己的判断。

研究者在论文里引用了DTN-UK的声明：通用大语言模型永远不能作为胰岛素输送的自主咨询计算器。

这不是保守，这是常识。

最后说几句

27,000次查询，4个最先进的AI模型，13张普普通通的食物照片。

结论是什么？

AI在需要精确答案的场景里，给不出精确答案。它甚至给不出稳定答案。

这不是批评AI。AI本来就不是为这种场景设计的。

问题是，我们是不是太把AI当回事了？

它能聊天，能写诗，能帮你写代码。这不意味着它能告诉你一顿饭该打多少胰岛素。

同一张照片问500次，得到500个不同的答案——这件事本身不可怕。

可怕的是，有人把这500个答案里的某一个，交到糖尿病患者手里，然后说："这是AI说的，照做吧。"

【锐评】：AI在糖尿病管理上的应用，目前就是一场豪赌——患者用命在赌那个随机数生成器这次心情好不好。

参考链接：
https://www.diabettech.com/i-asked-ai-to-count-my-carbs-27000-times-it-couldnt-give-me-the-same-answer-twice/