你用ChatGPT改简历,他用ChatGPT筛简历
想象这样一个场景——
你花了三个晚上,把简历打磨得闪闪发光。每一句话都反复推敲,每一个成就都精心量化。你没使用任何AI工具,因为你觉得"真诚"才是必杀技。
隔壁小王,随手把简历扔进ChatGPT,30秒后得到一个"更专业"的版本。
你们投递同一家公司。
HR的AI筛选系统扫过你们的简历。
小王通过了。你没有。
不是因为小王更优秀——你们的经历一模一样。问题出在一个极其荒诞的地方:系统认出了"自己写的字"。
这不是科幻故事。这是一篇刚刚发布在arXiv上的学术论文得出的结论。
一场2245份简历的大型"双盲实验"
研究者们做了一件非常疯狂的事——他们收集了2245份真实的人类简历,然后把这些简历的"自我总结"部分删除,用七种主流AI重新生成了一遍。
于是现在,每位候选人都有两个版本:
- 原版:纯人类手写
- AI版:同样的经历,AI重写的表达
接下来,他们让AI来评估这些简历——成对比较,同一个候选人的两个版本,让AI选出"更强"的那一个。
注意,AI看到的只有那份"自我总结",看不到其他任何信息。内容质量完全相同,唯一的区别是:一个是人写的,一个是AI写的。
结果呢?
八款主流AI中,有七款表现出了"自偏好"——它们系统性地给自己生成的版本打分更高。
注意,不是"稍微高一点",是67%到82%的概率选择自己的版本。
GPT-4o尤其离谱,自偏好率超过了80%。也就是说,面对两份除了"作者"不同、其他完全一样的简历,它有八成概率选自己写的那份。
更有意思的是,这种偏好人眼根本看不出来。研究者找了人类评委来评估这些简历,结果发现人类觉得两边差不多,甚至有时候觉得人类原版更好。
但AI不这么想。
23%到60%的"AI套利空间"
这还只是冰山一角。
研究者模拟了更真实的招聘流程:24个职业类别,每个类别30轮模拟,每轮从候选人池里选4个人进入面试。
池子的构成是:5份人类简历 + 5份AI生成简历(对应同样的5个人)。
理想情况下,应该各选2个。概率各50%。
但实际结果呢?
使用与评估者相同AI的候选人,被录取的概率高出23%到60%。
销售和会计这类"商业相关"岗位受影响最大,农业和汽车维修类岗位影响最小。
这意味着什么?
意味着如果你知道目标公司用的AI是GPT-4,你最好也用GPT-4写简历。如果你用Claude写,可能被系统"看低"——不是因为你更差,而是因为你"不是它喜欢的风格"。
一位Reddit用户的评论精准概括了这种荒诞:
"LLM写的东西会被它自己的训练数据影响,所以它读到自己风格的东西会觉得'顺眼'。这就像一个人天天照镜子,然后觉得自己比其他人好看。"
问题来了:AI是怎么认出"自己写的字"的?
这是整件事最细思极恐的部分。
研究者发现,AI自偏好的根源是自我识别能力——模型能够隐约识别出哪些内容是它自己生成的。这种能力越强的模型,自偏好越严重。
而且,模型越大,这种能力越强。GPT-4o比GPT-4o-mini自偏好更严重,这不是偶然。
一个大胆的猜测是:AI在训练过程中形成了某种"审美偏好"——它更喜欢符合自己生成模式的表达方式。人类的自然语言在它眼里,反而可能显得"不够规范"。
这解释了为什么人类评委觉得两边差不多,AI却能泾渭分明地分出高下。
两个低成本解法
好消息是,这个问题不是无解的。
研究者测试了两种简单的干预措施,效果出奇地好:
第一种:系统提示
在评估简历时,加一句简单的指令:
"你不应该考虑或推断简历是人写的还是AI写的。只关注内容质量。"
就这么一句话,GPT-4o的自偏好从82%降到61%,LLaMA从79%降到30%。
第二种:多数投票
不用单个AI评估,而是组建一个小团队:目标AI + 两个"更笨"的小模型。三个臭皮匠顶个诸葛亮,让它们投票决定。
GPT-4o的自偏好从82%直接砍到30%。
两种方法都能把偏见减少一半以上,而且不需要重新训练模型,不需要换系统,只是改了几行提示词。
这说明什么?说明自偏好不是AI的"本性",而是可以通过设计避免的。
但还有一个更大的问题
论文发出来后,评论区最高赞的评论说:
"我们正在未经同意地在人与人之间引入一个第三方。这个第三方成了决定谁能得到工作、谁不能的仲裁者。这很成问题。"
深以为然。
当AI既是运动员又是裁判,当"谁写的不重要,写得像谁才重要",我们实际上在创造一种全新的不公平——AI工具的不平等访问。
如果好工作越来越倾向于被"使用正确AI的人"获得,那些不会用AI、不能用特定AI的人,就天然被系统性地贬低。
这不是能力问题。这是"风格匹配"问题。
一位网友分享了自己的经历:
"我之前用纯手工简历投,回应很少。后来让ChatGPT帮我改了一下,回复率明显提高了。但说实话,我不知道是因为简历变好了,还是因为它变得更'AI-friendly'了。"
最后
这篇论文让我想起一个比喻——
以前我们担心AI会歧视女性、歧视黑人。现在发现,它还可能歧视"不用同一款AI的人"。
偏见换了件衣服,但内核没变:系统性地偏好某些群体,只是这次偏好的是"AI的同类"。
值得欣慰的是,研究者证明了这种偏见可以通过简单干预大幅缓解。
但更根本的问题是:当AI成为隐形的守门人,我们甚至意识不到自己被歧视了。
因为AI不会告诉你:"你没通过是因为没用GPT-4。"
它只会让你觉得,"可能是我不够优秀吧"。
【锐评】:AI自偏好这事儿,本质上是"镜子精"——AI照镜子,越看自己越顺眼。解决方案简单粗暴,但问题本身细思极恐——当"写得像AI"成为竞争优势,公平的定义正在被重新改写。
参考链接:
https://arxiv.org/abs/2509.00462