这大概是 AI 圈子今年最讽刺的一幕。

全球顶尖的 AI 专家们聚在一起开最高级别的学术会议,结果被揪出来一堆假引用

不是几篇,是几十篇;不是无关痛痒的小会,是 AI 领域的“奥林匹克”——NeurIPS。

AI配图

当打假者盯上了裁判

事情发生在上个月的圣地亚哥。

AI 检测初创公司 GPTZero 干了一件狠事:他们把 NeurIPS 大会接收的所有 4,841 篇论文 全扫了一遍。结果很尴尬。

GPTZero 在这堆代表了全球 AI 最高智商的论文里,发现了 100 个幻觉引用

这些引用分布在 51 篇论文中,经过确认,它们是彻头彻尾的假货

要知道,能被 NeurIPS 录用,那是简历上最硬的一块金字招牌。这些作者本该是这星球上最懂 AI 的一拨人。

结果呢?

他们似乎也没能抵挡住用大模型(LLM)去干“写参考文献”这种枯燥活儿的诱惑。## 统计学上的“零”,还是学术上的“雷”?

这时候肯定有人要跳出来洗地了。

先别急着骂,咱们得看数据。

这 100 个假引用,放在几万条参考文献的大海里,确实不多。从统计学角度看,这甚至可以忽略不计,约等于

NeurIPS 官方也赶紧出来找补。

他们告诉《财富》杂志,哪怕有 1.1% 的论文因为用了 LLM 而出现引用错误,论文本身的研究内容并不一定就是错的

这话没毛病。引用错了,不代表算法跑不通,也不模型没效果。

但是,这事儿真的能这么轻飘飘地翻篇吗?

引用是学术圈的“硬通货”

如果这只是个简单的笔误,那也就算了。

AI配图

问题是,这些引用是 AI 瞎编出来的。

在学术圈,引用不仅仅是格式,它是货币

它衡量你的工作有多大的影响力,是同行对你工作的认可。当 AI 开始大规模制造这种“假币”,学术信用体系就会面临通胀风险。

NeurIPS 可是标榜自己有着“严谨的机器学习和人工智能学术出版标准”的地方。每一篇论文都要经过好几个同行评审,评审员的任务里甚至明确写着:要标记出这种幻觉

结果呢?

评审没抓出来,作者没核对,假引用就这么大摇大摆地登堂入室了。

这不仅是偷懒,这是对严谨性的某种嘲讽。

没人能扛住“投稿海啸”

这也不能全怪评审员眼瞎。

现在的学术会议,早就被卷得面目全非。

GPTZero 在报告里点出了一个很现实的问题:投稿海啸

海量涌来的论文,把会议的评审管线压得快要断裂。这甚至催生了一篇 2025 年 5 月的论文,标题就叫《AI 会议同行评审危机》。在这种体量下,指望评审员去逐条核对每一个引用的真实性,简直是在考验人类的生理极限。

但这依然解释不了一个核心疑问:

为什么作者自己不查?

你用了什么文献,自己心里没数吗?

把核对 AI 工作这种最基本的步骤都省了,这到底是效率太高,还是心太大?

AI配图

如果专家都防不住,我们凭什么?

这事儿最让人细思极恐的地方,不在于那 100 个假引用本身。

而在于一种巨大的反差

这是一群以研究 AI 为生的人,他们的声誉就挂在学术严谨性上。即便如此,他们依然无法确保自己使用的 AI 工具在细节上是准确的。如果连这群全球最懂 AI、利益攸关最重的专家,都防不住 AI 的胡说八道(Slop)。

那对于我们这些普通用户呢?

当我们在工作中、生活中把决策权交给 AI 时,是不是也在不知不觉中,生产了一堆没人核查的“幻觉”?

这大概就是技术给人类开的一个黑色玩笑。

参考链接:
https://techcrunch.com/2026/01/21/irony-alert-hallucinated-citations-found-in-papers-from-neurips-the-prestigious-ai-conference/