当温度“倒挂”,AI的语言模型会说出什么?

负温度采样实验:让AI输出“最不可能”的文字,结果颠覆认知

AI配图

AI配图


温度为负,AI的文字世界开始崩塌

如果把AI的语言生成比作一场热力学实验,那么“温度”就是这场实验的控制旋钮。在正常情况下,温度越高,AI的文字越随机;温度越低,它越倾向于选择“最可能”的词语。但如果你把温度调到负值,会发生什么?答案是:一个语言模型会开始疯狂输出“最不可能”的词,甚至陷入一种诡异的循环。

近日,Cavendish Labs的一篇博客文章《Sampling at Negative Temperature》揭示了这一现象。通过将Meta开源的LLaMA模型运行在负温度参数下,研究者发现AI不仅无法生成有意义的句子,还反复输出一些奇怪的词汇,比如“Хронологија”(塞尔维亚语中的“编年史”)和“entferne”(德语中的“移除”)。这些词不仅是“最不可能”的选择,还似乎暴露了模型内部的一些隐秘缺陷。

图注

“负温度”并不是指寒冷,而是热力学中一种特殊的状态。在语言模型中,这种状态让AI的行为变得极其反常。


温度的本质:从热力学到神经网络

要理解“负温度”为何会让AI如此崩溃,我们需要先回顾一下温度的定义。在统计力学中,温度描述了一个系统的能量分布。假设一个系统有多个状态,每个状态都有对应的能量值。当系统处于热平衡时,它的状态分布遵循玻尔兹曼分布

p_i = e^(-E_i / k_B T) / Σ e^(-E_i / k_B T)

其中,T是温度,E_i是某个状态的能量。当温度为正时,低能量状态更可能出现;而当温度为负时,高能量状态反而成为主流。

在神经网络中,“温度”被用来控制模型生成文本的创造性。具体来说,在最后一层神经元上,我们使用softmax函数计算每个候选词的概率分布:

p_i = e^(z_i / T) / Σ e^(z_i / T)

这里的T就是温度参数。当T趋近于0时,模型会严格选择概率最高的词;当T趋近于无穷大时,所有词的概率趋于相等,输出变得完全随机。

但是,当T为负值时,事情就变得有趣了——那些原本几乎不可能出现的词,突然成了首选。这就像是一场“语言的叛逆”,AI开始拒绝常规逻辑,转而追求极端的不确定性。


实验揭秘:负温度下的AI如何“失守”

为了验证负温度对语言模型的影响,研究者对Meta的LLaMA模型进行了改造。他们修改了代码,允许温度参数设置为负值,并禁用了重复惩罚、top-k和top-p采样等机制。随后,他们用不同温度参数测试了模型的表现。

正常温度 vs 负温度

  • T=0.001(接近零温度)
    模型输出了一段非常标准的解释:“Temperature is a concept that is used to describe the degree of hotness or coldness of a substance.”
    翻译过来就是:“温度是一个用来描述物质冷热程度的概念。”
  • T=-0.001(负温度)
    模型立刻失控,输出了一串难以理解的字符,其中夹杂着大量重复的“Хронологија”。整个过程像是AI试图构建某种不可名状的句子,却最终失败。

随机性极限:T=1000000

当温度被设为极大值时,模型的输出完全混乱,充满了毫无意义的符号组合。然而,与负温度相比,这种随机性至少还有一定的均匀性,而负温度则更像是AI在故意制造“最糟糕”的结果。

AI配图


为什么是“Хронологија”?

细心的研究者注意到,负温度下频繁出现的“Хронологија”和“entferne”并非偶然。这些词恰好位于LLaMA嵌入空间的中心区域,意味着模型对它们的实际含义知之甚少。换句话说,这些词是模型的“盲点”。

“这些‘异常’的词不仅是最低概率的选择,也是模型知识体系中最薄弱的部分。”

这一发现引发了新的思考:语言模型是否真的理解它所处理的词汇?还是仅仅在模仿人类语言的表象?


负温度的意义:不只是学术游戏

虽然负温度采样看起来像是一场技术狂欢,但它背后隐藏着深刻的启示。

  1. 模型的脆弱性
    负温度暴露了语言模型在面对极端条件时的脆弱性。那些看似强大的AI系统,其实依赖于精心设计的参数范围,一旦超出这个范围,它们就会迅速崩溃。
  2. 语言模型的局限性
    通过对“异常”词汇的研究,我们可以更好地了解模型的知识边界。也许未来的改进方向之一,就是让AI学会正确处理这些“边缘案例”。
  3. 物理与AI的奇妙联系
    负温度的概念源自物理学中的“粒子反转”现象,这与激光的工作原理密切相关。或许有一天,类似的理论可以启发我们开发出更加高效的“激光级”语言模型。

尾声:负温度之后,还有什么?

负温度采样的实验让我们看到了AI语言模型的另一面——一个充满矛盾、混乱和未知的世界。但这也正是科学的魅力所在:每一次意外的发现,都可能带来全新的突破。

那么问题来了:如果我们训练一个新模型,专门学习负温度下的输出,它会不会进化出某种独特的“反逻辑”能力?或者,这只是另一个无解的谜题?


参考资料:
@misc{Kauffman2023negative-temperature,
author = "Derik Kauffman",
title = "Sampling at negative temperature",
year = 2023,
howpublished = "Blog post",
url = "https://cavendishlabs.org/blog/negative-temperature/"
}