急诊室里,AI的诊断准确率超过了人类医生?先别急着挂号

67% 对 50%。

这是哈佛医学院刚刚丢进医疗圈的一颗炸弹。在《Science》发表的最新研究中,OpenAI的o1模型在急诊初诊环节,准确率比经验丰富的内科主治医师高出十几个百分点。

当AI在生死时速的急诊室里开始"抢饭碗",我们到底该兴奋还是该警惕?

当AI拿到病历本

AI配图

事情发生在波士顿的Beth Israel Deaconess医疗中心。

研究团队挑了76个真实急诊病例,搞了场"盲测"——两位内科主治医师和OpenAI的o1、4o模型,各自基于相同的电子病历做诊断。然后由另外两位医生打分,全程不知道哪个答案来自人类,哪个来自硅基大脑。

结果让研究团队自己都吓了一跳。

在信息最少、时间最紧的初诊环节(initial ER triage),o1模型有67%的病例给出了"完全准确或非常接近"的诊断。 相比之下,两位人类医生的命中率分别是55%和50%。

"我们几乎测试了所有基准,它超越了之前的模型,也超越了我们的医生基线。"研究负责人Arjun Manrai在哈佛的新闻稿里毫不掩饰惊讶。

最关键的是,研究人员强调他们**"完全没有预处理数据"**——AI看到的,就是急诊室里那份原始、混乱、可能还缺东少西的病历。

但这里有个巨大的"但是"

先别急着让AI穿白大褂。

AI配图

研究团队在论文里拼命踩刹车:这并不意味着AI已经准备好做生死决策。 他们呼吁急需在现实世界中进行前瞻性试验。

更现实的障碍是——出了事,找谁负责?

"目前围绕AI诊断还没有正式的问责框架。"研究的另一位负责人Adam Rodman医生警告《卫报》。他补了一句很扎心的话:"患者仍然希望由人类来引导他们度过生死抉择。"

说到底,诊断对了固然好,诊断错了呢?你能起诉一个算法吗?能让GPT-4o去医患调解委员会吗?

最狠的质疑来自急诊室内部

真正精彩的反转,是急诊科医生Kristen Panthagani的吐槽。

她在个人博客里直言,这项研究被**"过度炒作"**了。核心问题在于:对比的对象错了。

"如果要比较AI工具和医生的临床能力,我们应该先跟实际从事该专科的医生比。"Panthagani说,"如果一个大语言模型能在神经外科考试中打败皮肤科医生,这并不算特别有用的信息。"

更关键的是,急诊医学的逻辑根本不是"猜对你的最终诊断"。

AI配图

"作为急诊医生,我第一次见到患者时的首要目标,不是猜出你最终得的是什么病,而是确定你是否有会立即致命的疾病。"

换句话说,急诊室不是解谜游戏,而是排雷现场。AI可能擅长从症状拼凑出"罕见自身免疫疾病"这种漂亮答案,但它能在一堆腹痛患者中,第一时间认出那个随时会猝死的心梗病人吗?

目前的研究只测试了文本推理,而真实的急诊室里,医生在看心电图、在听心音、在观察患者走路的姿态——这些非文本输入,恰恰是当前AI的软肋。

工具还是替身?

这场实验暴露了一个尴尬的现实:我们既期待AI的超人记忆力,又无法放弃人类医生的兜底责任。

哈佛的研究像一面镜子,照出了医疗AI的精确边界——它可能是极好的辅助决策工具,但在建立问责机制、解决伦理困境、处理多模态信息之前,它还不能成为那个在抢救单上签字的人。

当o1在纸上诊断出67%的正确率时,真正的急诊室里,医生们正在用剩下的33%容错率,守护着那些算法可能漏掉的、会死人的细节。

问题是,当技术继续进化,我们准备好重新定义"医生"这个词了吗?

【锐评】:医疗AI最讽刺的悖论是——它越准确,我们越不敢让它独自背锅;它越像医生,我们越需要人类来当那个最终签字的人。

参考链接:
https://techcrunch.com/2026/05/03/in-harvard-study-ai-offered-more-accurate-diagnoses-than-emergency-room-doctors/