当温度“倒挂”，AI的语言模型会说出什么？

负温度采样实验：让AI输出“最不可能”的文字，结果颠覆认知

AI配图

温度为负，AI的文字世界开始崩塌

如果把AI的语言生成比作一场热力学实验，那么“温度”就是这场实验的控制旋钮。在正常情况下，温度越高，AI的文字越随机；温度越低，它越倾向于选择“最可能”的词语。但如果你把温度调到负值，会发生什么？答案是：一个语言模型会开始疯狂输出“最不可能”的词，甚至陷入一种诡异的循环。

近日，Cavendish Labs的一篇博客文章《Sampling at Negative Temperature》揭示了这一现象。通过将Meta开源的LLaMA模型运行在负温度参数下，研究者发现AI不仅无法生成有意义的句子，还反复输出一些奇怪的词汇，比如“Хронологија”（塞尔维亚语中的“编年史”）和“entferne”（德语中的“移除”）。这些词不仅是“最不可能”的选择，还似乎暴露了模型内部的一些隐秘缺陷。

“负温度”并不是指寒冷，而是热力学中一种特殊的状态。在语言模型中，这种状态让AI的行为变得极其反常。

温度的本质：从热力学到神经网络

要理解“负温度”为何会让AI如此崩溃，我们需要先回顾一下温度的定义。在统计力学中，温度描述了一个系统的能量分布。假设一个系统有多个状态，每个状态都有对应的能量值。当系统处于热平衡时，它的状态分布遵循玻尔兹曼分布：

p_i = e^(-E_i / k_B T) / Σ e^(-E_i / k_B T)

其中，T是温度，E_i是某个状态的能量。当温度为正时，低能量状态更可能出现；而当温度为负时，高能量状态反而成为主流。

在神经网络中，“温度”被用来控制模型生成文本的创造性。具体来说，在最后一层神经元上，我们使用softmax函数计算每个候选词的概率分布：

p_i = e^(z_i / T) / Σ e^(z_i / T)

这里的T就是温度参数。当T趋近于0时，模型会严格选择概率最高的词；当T趋近于无穷大时，所有词的概率趋于相等，输出变得完全随机。

但是，当T为负值时，事情就变得有趣了——那些原本几乎不可能出现的词，突然成了首选。这就像是一场“语言的叛逆”，AI开始拒绝常规逻辑，转而追求极端的不确定性。

实验揭秘：负温度下的AI如何“失守”

为了验证负温度对语言模型的影响，研究者对Meta的LLaMA模型进行了改造。他们修改了代码，允许温度参数设置为负值，并禁用了重复惩罚、top-k和top-p采样等机制。随后，他们用不同温度参数测试了模型的表现。

正常温度 vs 负温度

T=0.001（接近零温度）
模型输出了一段非常标准的解释：“Temperature is a concept that is used to describe the degree of hotness or coldness of a substance.”
翻译过来就是：“温度是一个用来描述物质冷热程度的概念。”
T=-0.001（负温度）
模型立刻失控，输出了一串难以理解的字符，其中夹杂着大量重复的“Хронологија”。整个过程像是AI试图构建某种不可名状的句子，却最终失败。

随机性极限：T=1000000

当温度被设为极大值时，模型的输出完全混乱，充满了毫无意义的符号组合。然而，与负温度相比，这种随机性至少还有一定的均匀性，而负温度则更像是AI在故意制造“最糟糕”的结果。

AI配图

为什么是“Хронологија”？

细心的研究者注意到，负温度下频繁出现的“Хронологија”和“entferne”并非偶然。这些词恰好位于LLaMA嵌入空间的中心区域，意味着模型对它们的实际含义知之甚少。换句话说，这些词是模型的“盲点”。

“这些‘异常’的词不仅是最低概率的选择，也是模型知识体系中最薄弱的部分。”

这一发现引发了新的思考：语言模型是否真的理解它所处理的词汇？还是仅仅在模仿人类语言的表象？

负温度的意义：不只是学术游戏

虽然负温度采样看起来像是一场技术狂欢，但它背后隐藏着深刻的启示。

模型的脆弱性
负温度暴露了语言模型在面对极端条件时的脆弱性。那些看似强大的AI系统，其实依赖于精心设计的参数范围，一旦超出这个范围，它们就会迅速崩溃。
语言模型的局限性
通过对“异常”词汇的研究，我们可以更好地了解模型的知识边界。也许未来的改进方向之一，就是让AI学会正确处理这些“边缘案例”。
物理与AI的奇妙联系
负温度的概念源自物理学中的“粒子反转”现象，这与激光的工作原理密切相关。或许有一天，类似的理论可以启发我们开发出更加高效的“激光级”语言模型。

尾声：负温度之后，还有什么？

负温度采样的实验让我们看到了AI语言模型的另一面——一个充满矛盾、混乱和未知的世界。但这也正是科学的魅力所在：每一次意外的发现，都可能带来全新的突破。

那么问题来了：如果我们训练一个新模型，专门学习负温度下的输出，它会不会进化出某种独特的“反逻辑”能力？或者，这只是另一个无解的谜题？

参考资料：
@misc{Kauffman2023negative-temperature,
author = "Derik Kauffman",
title = "Sampling at negative temperature",
year = 2023,
howpublished = "Blog post",
url = "https://cavendishlabs.org/blog/negative-temperature/"
}