斯坦福秘密测试：AI“教授”干翻75%人类教授，法律教育要变天？

一场发生在斯坦福法学院的秘密对决，结果让人大跌眼镜。

近3000次匿名比较，16位来自全美顶尖法学院的教授。他们不知道自己评判的答案，是来自AI，还是同行。最终，AI以75%的胜率，碾压了人类教授。

更扎心的数据是：教授们将同行写的答案标记为“可能误导学生”的比例是12%，而对AI答案，这个数字只有3.5%。

是的，你没看错。在需要“判断、细腻推理和应对模糊性”的法律领域，AI正在让它的创造者们，感到一丝寒意。

图注：斯坦福法学院Julian Nyarko教授领导了这项颠覆性研究。

当AI开始“思考”法律，人类的骄傲还剩多少？

这项由斯坦福法学院教授朱利安·尼亚科领导、联合耶鲁、NYU等多所顶尖学府进行的研究，目标很明确：测试大型语言模型能否成为有效的法律导师。

测试问题不是简单的法条背诵，而是40个学生在课后或办公时间可能提出的合同法问题。教授们亲自写下自己的答案，然后与AI的答案混合，进行盲评。

“坦率说，我们被结果的幅度震惊了。”尼亚科教授说，“这些问题大多没有显而易见的正确答案。它们需要综合复杂材料、应用于新情境，并以帮助学生发展自身分析能力的方式来解释法律概念。”

以往对AI的测试，大多集中在有标准答案的领域。法律则不同。

“在法律中，常常没有正确答案。两个对立的论点可能都很好。”研究合著者、耶鲁大学法学教授萨拉特·桑加指出，“我们想知道的是，AI能否达到律师们互相评估论点时那种隐含的专业标准。在这个案例中，答案是‘是的’。”

这意味着什么？意味着AI不仅能处理事实，它开始能够驾驭争论、权衡证据、构建有说服力的论证——这些长期以来被视为人类律师的核心壁垒。

图注：AI教育的概念化呈现，法律教育的传统模式面临冲击。

研究的初衷并非要替代教授。尼亚科强调，法律教育关乎培养批判性思维、说服力和伦理复杂性。他们的研究是在探索AI能否支持这一使命。

“我们的研究转移了注意力，关注AI辅导能为法律等需要判断的领域的学习贡献什么。”第一作者亚历杭德罗·萨利纳斯说。研究发现，AI可以提供高质量的、随时可用的支持，作为课堂讲授的补充，或许还能拓宽获取专家指导的途径。

这或许是解决法律教育资源不均的一把钥匙。正如一位网友所评论的：“普通人将有能力从臃肿的法律阶层手中夺回法治权利……司法的可及性是不平等的巨大驱动力。”

但尼亚科教授自己泼了一盆冷水：“我们并非主张全面采用AI导师。但我们的数据表明，全面的怀疑可能同样没有根据。”

对于这项研究，互联网上的观点也相当分裂。

有人看到巨大机遇：“想象一下，如果一个开发团队不再需要工程师->产品经理->法务团队的层层转发，就能获得关于本地数据保留要求的答案。产品上线速度会快得多。”

也有人充满警惕和讽刺：

“最佳猜测是，Gemini被训练过测试问题对应的教科书，所以它们更擅长显性回忆。”
“这不过是在一个‘人类中心主义’研究由AI爱好者发布的惊喜罢了。”
“图书馆比学生强……晚上9点的更多新闻。”

个人觉得，把教授的观点和他的身份绑定进行人身攻击，有点偏离了对研究本身的讨论。但“AI是否在复述教科书”的质疑，确实点出了关键——AI的“优秀”是源于真正的理解，还是海量数据的模式匹配？

斯坦福的研究，像一颗投入平静湖面的石子。它没有给出最终答案，却激起了所有必须面对的涟漪。

当AI开始学会像律师一样思考，甚至思考得更好时，我们是该庆幸，还是该警惕？法律教育的未来，是拥抱一个24小时在线的超级导师，还是坚守人类师生间那份不确定的、却充满火花的传承？

或许，真正的转折点不在于AI能否给出好答案，而在于我们，是否准备好了，去问它更好的问题。

【锐评】：用算法来评判需要人性模糊地带的法律答案，这本就是最大的悖论。斯坦福的测试赢了，但法律的“人味儿”，恐怕是AI下一场考试里最难的必答题。

参考链接：
https://law.stanford.edu/press/ai-outperforms-law-professors-in-stanford-law-study/