哈佛研究：AI在急诊室的诊断准确率超过人类医生

急诊室里，AI的诊断准确率超过了人类医生？先别急着挂号

67% 对 50%。

这是哈佛医学院刚刚丢进医疗圈的一颗炸弹。在《Science》发表的最新研究中，OpenAI的o1模型在急诊初诊环节，准确率比经验丰富的内科主治医师高出十几个百分点。

当AI在生死时速的急诊室里开始"抢饭碗"，我们到底该兴奋还是该警惕？

AI配图

事情发生在波士顿的Beth Israel Deaconess医疗中心。

研究团队挑了76个真实急诊病例，搞了场"盲测"——两位内科主治医师和OpenAI的o1、4o模型，各自基于相同的电子病历做诊断。然后由另外两位医生打分，全程不知道哪个答案来自人类，哪个来自硅基大脑。

结果让研究团队自己都吓了一跳。

在信息最少、时间最紧的初诊环节（initial ER triage），o1模型有67%的病例给出了"完全准确或非常接近"的诊断。 相比之下，两位人类医生的命中率分别是55%和50%。

"我们几乎测试了所有基准，它超越了之前的模型，也超越了我们的医生基线。"研究负责人Arjun Manrai在哈佛的新闻稿里毫不掩饰惊讶。

最关键的是，研究人员强调他们**"完全没有预处理数据"**——AI看到的，就是急诊室里那份原始、混乱、可能还缺东少西的病历。

先别急着让AI穿白大褂。

AI配图

研究团队在论文里拼命踩刹车：这并不意味着AI已经准备好做生死决策。 他们呼吁急需在现实世界中进行前瞻性试验。

更现实的障碍是——出了事，找谁负责？

"目前围绕AI诊断还没有正式的问责框架。"研究的另一位负责人Adam Rodman医生警告《卫报》。他补了一句很扎心的话："患者仍然希望由人类来引导他们度过生死抉择。"

说到底，诊断对了固然好，诊断错了呢？你能起诉一个算法吗？能让GPT-4o去医患调解委员会吗？

真正精彩的反转，是急诊科医生Kristen Panthagani的吐槽。

她在个人博客里直言，这项研究被**"过度炒作"**了。核心问题在于：对比的对象错了。

"如果要比较AI工具和医生的临床能力，我们应该先跟实际从事该专科的医生比。"Panthagani说，"如果一个大语言模型能在神经外科考试中打败皮肤科医生，这并不算特别有用的信息。"

更关键的是，急诊医学的逻辑根本不是"猜对你的最终诊断"。

AI配图

"作为急诊医生，我第一次见到患者时的首要目标，不是猜出你最终得的是什么病，而是确定你是否有会立即致命的疾病。"

换句话说，急诊室不是解谜游戏，而是排雷现场。AI可能擅长从症状拼凑出"罕见自身免疫疾病"这种漂亮答案，但它能在一堆腹痛患者中，第一时间认出那个随时会猝死的心梗病人吗？

目前的研究只测试了文本推理，而真实的急诊室里，医生在看心电图、在听心音、在观察患者走路的姿态——这些非文本输入，恰恰是当前AI的软肋。

这场实验暴露了一个尴尬的现实：我们既期待AI的超人记忆力，又无法放弃人类医生的兜底责任。

哈佛的研究像一面镜子，照出了医疗AI的精确边界——它可能是极好的辅助决策工具，但在建立问责机制、解决伦理困境、处理多模态信息之前，它还不能成为那个在抢救单上签字的人。

当o1在纸上诊断出67%的正确率时，真正的急诊室里，医生们正在用剩下的33%容错率，守护着那些算法可能漏掉的、会死人的细节。

问题是，当技术继续进化，我们准备好重新定义"医生"这个词了吗？

【锐评】：医疗AI最讽刺的悖论是——它越准确，我们越不敢让它独自背锅；它越像医生，我们越需要人类来当那个最终签字的人。

参考链接：
https://techcrunch.com/2026/05/03/in-harvard-study-ai-offered-more-accurate-diagnoses-than-emergency-room-doctors/