熵,这个词几乎在所有领域都出现过:热力学、信息论、统计力学、机器学习、生物学、神经科学。每个人谈的”熵”,真的是同一件事吗?[6]
答案既是”是”,也是”不是”。它们共享同一副数学骨架,却生长在不同的土壤里。本文的任务,就是追溯这副骨架的来历——从热力学方向感开始,走向 Boltzmann 的统计诠释,再到 Shannon 的信息度量,最后抵达 Jaynes 的统一原理,以及 Landauer 把信息拉回物理世界的关键一步。这不是一段比喻,而是一条可以用数学逐步核验的推导链。[2]
📑 本文目录
一、热力学熵:方向感的数学起点
19世纪中叶,物理学家面对一个令人困惑的事实:自然界的过程是有方向的。热量从热的地方流向冷的地方,打碎的鸡蛋不会自动复原,香水从瓶中散出之后不会自行收回。牛顿方程在时间上是对称的,为什么宏观世界偏偏有单向性?[5]
Clausius 在 1865 年给这种方向感命名为”熵”(Entropy,源自希腊语”转变”),并给出了热力学定义:
| 符号 | 含义 |
|---|---|
| dS | 系统熵的微小变化 |
| δQrev | 可逆过程中系统吸收的微小热量 |
| T | 热力学温度(开尔文) |
人话翻译:你往一个温度为 T 的系统注入微小热量 δQ,系统的”熵”就增加 δQ/T。温度越高,同样的热量引起的熵变越小——已经很热的系统,再加点热量并不会带来多大的”意外”。
📜 热力学第二定律的熵表述:对于孤立系统,任何自发过程都满足 ΔS ≥ 0。等号对应可逆过程,不等号对应不可逆过程。宇宙的熵只增不减。
这个定义非常实用,但有一个根本缺陷:它只描述了熵在变化时的规则,却没有告诉我们熵”是什么”。为什么热量自发从高温流向低温?为什么 ΔS ≥ 0?这背后有更深的道理吗?[9]
二、Boltzmann 的桥:用微观态数解释宏观无序
Ludwig Boltzmann 给出了答案。他的洞见是:热力学的宏观量(温度、压强、体积)是大量微观粒子集体行为的统计结果。熵,不过是在记录”这个宏观状态对应了多少种微观可能性”。
🔑 核心概念:微态数 Ω
一个宏观状态(如特定温度和体积下的气体)可以由无数种微观粒子排列来实现。所有这些可能的微观排列数,称为该宏观状态的微态数 Ω。
Boltzmann 的核心公式刻在他的墓碑上:
| 符号 | 含义 |
|---|---|
| S | 热力学熵 |
| kB | Boltzmann 常数,1.380649 × 10−23 J/K |
| Ω | 宏观态对应的微观态总数(微态数) |
| ln | 自然对数 |
人话翻译:一个状态有越多的微观实现方式,它的熵就越高。气体在房间里均匀分布,对应的微观态数远多于所有分子都挤在角落的情形。所以均匀分布的熵高,这就是为什么气体会自发扩散——不是被什么力推动,而是因为”到处都是”的微观方式实在太多了。[7]
💡 直觉类比:洗牌
一副全新的扑克牌(按花色数字排列)处于极低熵状态——只有一种排列实现这个”完美”宏观状态。随机洗一下,进入高熵状态——”看起来乱”的宏观态对应的具体排列数有 52! ≈ 8 × 1067 种。宏观上看起来一样乱,微观上却是不同的具体排列。这就是为什么洗牌几乎不可能洗出新牌刚开封时的顺序。
Boltzmann 公式还自然地解释了第二定律:如果系统从低 Ω 状态向高 Ω 状态演化,是概率压倒性胜出的结果,而非某种神秘力量。宏观不可逆性,从微观可逆动力学中以统计方式涌现出来。[10]
Gibbs 后来将这一思想推广为更一般的系综熵:
人话翻译:当系统不是等概率分布在各微态上时,我们用每个微态的概率 pi 加权求和。这是 Boltzmann 公式的概率推广——等概率时两者完全等价。这个形式会在接下来大显神威。
三、Shannon 的抽象:从物理到信息
1948 年,贝尔实验室的工程师 Claude Shannon 面对的是一个完全不同的问题:如何度量通信信道的信息传输能力?你发送一条消息,接收方获得了多少”信息”?[1]
Shannon 的出发点非常简洁:信息量应该等于”不确定性的消除量”。如果你知道明天一定会下雨,那天气预报”明天下雨”没有带来任何信息。如果下雨概率只有 1%,同样的预报却携带了巨量信息。
🔑 单条消息的信息量
若事件发生概率为 p,那么该事件发生时携带的信息量为:
概率越小,信息量越大。必然事件(p = 1)的信息量为 0。
现在考虑一个信息源,它会随机产生消息,第 i 条消息发生的概率为 pi。这个信息源的平均不确定性(即平均信息量)是多少?Shannon 将它定义为信息熵:
| 符号 | 含义 |
|---|---|
| H | Shannon 熵(信息熵),单位:比特 |
| pi | 第 i 种消息的概率 |
| log2 | 以 2 为底的对数(换 e 为底得 nats,换 10 为底得 Hartleys) |
人话翻译:H 是”收到消息之前你平均有多不确定”。掷一枚均匀硬币,H = 1 比特——你完全不知道结果,消息带来的信息量最大。掷一枚两面都是正面的硬币,H = 0——结果早知道了,消息毫无信息量。[1]
📐 Shannon 熵的三个公理化特性
Shannon 证明,若一个度量满足以下三个直觉条件,则形式上唯一确定为上述表达式:
- 连续性:H 随各 pi 连续变化
- 最大性:等概率分布时 H 最大(最大不确定性)
- 可加性:两个独立事件的联合不确定性等于各自不确定性之和
这三个条件如此自然,以至于信息熵的形式几乎是”唯一合理选择”。
四、形式同构:不是巧合,是同一件事
现在请把两个公式并排放:
H = −Σi pi log2 pi (信息论)
两者的数学结构完全相同,区别仅在于:一个乘了 Boltzmann 常数 kB(带上物理量纲),一个用 log2(换了计量单位)。[4]
❌ 常见误区:Shannon 是”借用”了热力学熵这个名字
实际上,Shannon 一开始把它叫做”不确定性度量”。据说是冯·诺依曼建议他用”熵”这个词,因为”统计力学里已经有同样的东西了,而且没有人真正理解熵是什么,所以你在辩论中总是处于有利位置。”
但这个轶事掩盖了一个深刻事实:Shannon 并不是在做比喻,而是抽取了 Gibbs 熵背后的数学骨架,并发现它在信息论中同样适用。
形式相同背后有深刻原因:两个理论都在处理”概率分布的不确定性”这同一件事。热力学熵刻画的是微态分布的不确定性,信息熵刻画的是消息分布的不确定性。底层数学结构的同一性,反映了它们描述的正是同一类数学对象。[6]
热力学熵 vs 信息熵对比
| 维度 | 热力学熵(Gibbs) | 信息熵(Shannon) |
|---|---|---|
| 出发点 | 物理系统的微态分布 | 通信信道的消息分布 |
| 概率 pi | 系统处于微态 i 的概率 | 发出消息 i 的概率 |
| 单位 | J/K(乘了 kB) | 比特(用 log2) |
| 最大值条件 | 等概率分布(微正则系综) | 等概率分布(均匀信息源) |
| 数学结构 | −Σ pi ln pi | −Σ pi log pi |
五、Jaynes 的统一:最大熵原理
如果说 Shannon 发现了”两者长得一样”,那么 Jaynes 在 1957 年的工作则揭示了”两者为什么是同一件事”。[2][3]
“统计力学的基础不是物理学,而是推断逻辑。”
— E.T. Jaynes,1957
Jaynes 的核心论点:统计力学中我们为什么用正则分布(Boltzmann 分布)?不是因为”粒子喜欢这样分布”,而是因为:在约束条件(已知平均能量)下,正则分布是使熵最大的唯一分布——也就是在已知信息下做最少偏见推断的唯一合理选择。
用数学表达:给定约束
Σi pi Ei = ⟨E⟩ (平均能量固定)
在这两个约束下,最大化 Shannon 熵 H = −Σ pi ln pi,用 Lagrange 乘数法求解:
对每个 j 求导:
解出:
| 符号 | 含义 |
|---|---|
| β | Lagrange 乘子,对应热力学温度,β = 1/(kBT) |
| Z | 配分函数,Z = Σj e−βEj,保证归一化 |
| Ej | 微态 j 的能量 |
人话翻译:这正是统计力学里经典的 Boltzmann 分布(正则分布)!Jaynes 的推导说明:只需要用信息论中的最大熵原理 + 能量约束,就能自动导出物理上的 Boltzmann 分布,不需要任何额外的物理假设。[11]
📐 最大熵原理的一般表述
给定一组约束 {⟨fk⟩ = Fk},在满足约束的所有概率分布中,选择使 Shannon 熵最大的那个——这就是在”已知信息”下的最合理推断,不添加任何多余假设。
这一原理在现代机器学习(最大熵分类器、softmax 函数)、图像重建、经济学中广泛应用。[12]
Jaynes 的贡献,在于把统计力学从”粒子为什么这样分布”改写成”在已知约束下我们该如何理性分配概率”。这不是物理问题,而是推断问题。热力学与信息论在这里完全会师。[3]
🚀 延伸:Maximum Caliber 原理
Jaynes 原理的路径空间推广——在动态过程中,用最大路径熵(Maximum Caliber)代替最大状态熵,可以推导出非平衡系统的动力学。[14] 这把”从平衡态到动态过程”的桥梁也建好了。
六、Landauer 原理:信息有热力学账单
到目前为止,桥梁建立的方向是:热力学熵 → 信息熵。但还有反向的问题:信息,作为一种抽象的东西,真的影响物理世界吗?
Rolf Landauer 在 1961 年给出了震惊当时学界的答案:擦除一比特信息,必然向环境至少耗散 kBT ln 2 的热量。[15]
| 符号 | 含义 |
|---|---|
| Qmin | 擦除 1 比特信息向环境耗散的最小热量 |
| kB | Boltzmann 常数 |
| T | 环境温度 |
| ln 2 | ≈ 0.693,来自 1 比特对应的 2 个状态之 ln 2 |
人话翻译:在室温(T ≈ 300 K)下,每擦除 1 比特,至少产生约 2.87 × 10−21 焦耳的热量。这在单颗芯片数十亿次操作的尺度上,是可以被测量的。
🔬 实验验证
Landauer 原理在 21 世纪得到了实验验证。在囚禁离子体系等实验平台上,研究者直接测量了信息擦除伴随的能量耗散,证实了信息与物理之间的量化联系。[18] 信息热力学已从哲学命题成为实验科学。
Landauer 原理的逻辑很简洁:
- 擦除 1 比特,意味着把一个 2 态系统(可能是 0 或 1)强制归结为一个确定状态(比如 0)
- 这让系统的热力学熵减少了 kB ln 2(对应信息熵减少 1 比特)
- 热力学第二定律要求,系统熵的减少必须由环境熵的至少等量增加来补偿
- 环境熵增 = 环境吸热 / T,因此 Qmin = kBT ln 2
这是信息论与热力学最直接的握手:信息不是漂浮在数学天空中的抽象对象——它落地时要发热。[15][16]
🧪 Maxwell 妖的终结
Maxwell 在 1867 年构想了一个思想实验:一个”妖精”监视气体分子,只让快分子通过隔板,将热量从冷侧传到热侧,似乎违背了第二定律。Landauer 原理给出了正式的答案:妖精必须记录每个分子的信息,最终清空记忆时必须付出至少 kBT ln 2 的耗散代价。信息的物理代价恰好封住了第二定律的漏洞。
信息热力学如今已发展为一个活跃的理论前沿,将信息流、因果结构与熵产生统一在同一框架下进行分析。[16]
七、这座桥通向哪里
从 Clausius 到 Boltzmann,再到 Shannon、Jaynes 和 Landauer,这条推导链连通了三个原本相互独立的领域。但这座桥远不止于此。
🚀 Tsallis 熵与非广延统计
标准 Boltzmann-Gibbs-Shannon 熵在处理长程关联系统(如引力系统、幂律分布)时遇到困难。Tsallis 熵作为参数化推广,以标准形式为极限情形(参数 q → 1),已在多个物理和复杂系统场景中展示出优势。[7][8] 这说明”熵家族”还未穷尽。
🚀 量子信息中的熵
最大熵原理在量子纠缠态的描述中同样有效——在已知量子力学约束下,密度矩阵的 von Neumann 熵(量子版 Shannon 熵)达到最大,给出量子系综的最合理表示。[13] 热力学—信息—量子信息,构成一个完整的三角。
🌍 神经科学与机器学习中的熵
信息热力学正在向神经科学延伸:大脑如何在能量约束下进行高效信息处理?神经元网络的熵产生与信息传递之间有怎样的权衡?[17] 与此同时,机器学习中的交叉熵、KL 散度、softmax 都是最大熵家族的直接应用——每次训练一个神经网络,背后都有 Jaynes 的影子。
值得注意的是,不同语境下”熵”的含义并不完全相同,简单混用会造成概念混乱。[6] 但数学骨架的同源性是真实的。正确的姿态是:理解各自的适用范围,并清楚它们共享哪副骨架、在哪里分叉。
从热力学方向感,到微观态统计,到信息不确定性,再到推断原则,再到物理代价——这不是一系列比喻,而是一条可逐步推导验证的数学链条。熵,是自然界为”我们不知道什么”定的价格。
🧭 混沌笔记点评
这篇文章试图做一件事:让你看清”熵”这个词背后,藏着一根同一副数学骨架撑起的柱子。
- Boltzmann S = kB ln Ω:熵是微观可能性的对数计数。不是”混乱程度”,是”有多少种方式可以实现这个宏观状态”。
- Shannon H = −Σ pi log pi:信息熵不是”借用”热力学熵,而是抽取了同一数学结构,用于度量通信不确定性。
- Jaynes 最大熵原理:统计力学的 Boltzmann 分布不是物理假设,而是最大熵推断的必然结果。物理与推断在这里合流。
- Landauer 原理:信息擦除有能量代价。比特不是抽象的,它落地时要发热。这是信息论与热力学反向握手。
- 前沿延伸:Tsallis 非广延熵、量子 von Neumann 熵、信息热力学——这座桥今天仍在延伸。
在混沌笔记看来,理解熵的统一性,是理解复杂系统的重要基础。不同领域里的”熵”,既不是重名巧合,也不是完全等价——而是同一数学原理在不同物理基底上的折射。
📚 参考文献
- Shannon CE. A Mathematical Theory of Communication. Bell System Technical Journal. 1948. [经典奠基文献,现代信息论基础]
- Jaynes ET. Information Theory and Statistical Mechanics. Physical Review. 1957. [最关键桥梁文献,最大熵推断统一统计力学与信息论]
- Jaynes ET. Information Theory and Statistical Mechanics II. Physical Review. 1957. [延续第一篇,讨论配分函数与约束推导]
- Kafri O. Information theory and Thermodynamics. arXiv:cs/0602023. 2006. https://arxiv.org/abs/cs/0602023
- Ben-Naim A. Entropy and Time. Entropy. 2020. PMID: 33286203. DOI: 10.3390/e22040430
- Nielsen S et al. The Entropy of Entropy: Are We Talking about the Same Thing? Entropy. 2023. PMID: 37761587. DOI: 10.3390/e25091288
- Tsallis C et al. Beyond Boltzmann-Gibbs-Shannon in Physics and Elsewhere. Entropy. 2019. PMID: 33267410. DOI: 10.3390/e21070696
- Tsallis C, Brigatti E. Nonextensive statistical mechanics: A brief introduction. arXiv:cond-mat/0305606. 2003. DOI: 10.1007/s00161-004-0174-4. https://arxiv.org/abs/cond-mat/0305606
- Feistel R et al. Distinguishing between Clausius, Boltzmann and Pauling Entropies of Frozen Non-Equilibrium States. Entropy. 2019. PMID: 33267512. DOI: 10.3390/e21080799
- Wallace D. Probability and Irreversibility in Modern Statistical Mechanics: Classical and Quantum. arXiv:2104.11223. 2021. https://arxiv.org/abs/2104.11223
- Dimitrov VI. On Shannon-Jaynes Entropy and Fisher Information. AIP Conf Proc. 2007. arXiv:0708.2879. DOI: 10.1063/1.2821257
- Baggenstoss P et al. Beyond Moments: Extending the Maximum Entropy Principle to Feature Distribution Constraints. Entropy. 2018. PMID: 33265739. DOI: 10.3390/e20090650
- Rajagopal AK. Quantum Entanglement and the Maximum Entropy States from the Jaynes Principle. Phys Rev A. 1999. arXiv:quant-ph/9903083. DOI: 10.1103/PhysRevA.60.4338
- Ghosh K et al. The Maximum Caliber Variational Principle for Nonequilibria. Annu Rev Phys Chem. 2020. PMID: 32075515. DOI: 10.1146/annurev-physchem-071119-040206
- Chattopadhyay P et al. Landauer principle and thermodynamics of computation. Rep Prog Phys. 2025. PMID: 40345217. DOI: 10.1088/1361-6633/add6b3
- Ito S, Sagawa T. Information flow and entropy production on Bayesian networks. arXiv:1506.08519. 2015. https://arxiv.org/abs/1506.08519
- Karbowski J. Information thermodynamics: from physics to neuroscience. arXiv:2409.17599. 2024. DOI: 10.3390/e26090779
- Yan L et al. Verification of Information Thermodynamics in a Trapped Ion System. Entropy. 2022. PMID: 35741534. DOI: 10.3390/e24060813