信息几何：用曲率理解概率

🟣 数学证明 📅 2026年3月 ⏱ 阅读约12分钟

你有没有想过：两个概率分布之间的”距离”，是多少？

均值相差 1 的两个正态分布，和方差差了一倍的两个正态分布，哪对”更不一样”？普通减法给不出答案——因为概率分布不住在数轴上，它们住在一个有曲率的几何空间里。

信息几何就是研究这个空间的学问。它把一族概率分布视为一张有形状、有弯曲的流形，用 Fisher 信息矩阵定义”距离感”，用曲率解释为什么有些估计更难，为什么神经网络训练会在某些区域陷入停滞，以及为什么自然选择可以被看作一种几何优化。^[1]

这篇文章从最基本的问题出发，沿着 Fisher 信息 → 统计流形 → 自然梯度 → 最优传输 → 复杂系统这条线，带你走一遍信息几何的核心骨架。

📑 本文目录

一、Fisher 信息：曲率的度量单位
二、统计流形：概率分布的几何舞台
三、自然梯度：顺着曲率学习
四、最优传输桥接：另一套概率几何语言
五、复杂系统中的应用
六、跨领域联系
七、前沿：信息几何往哪走？

一、Fisher 信息：曲率的度量单位

一切从一个问题开始：参数 θ 改变一点点，分布会改变多少？

Fisher 信息矩阵的定义：

I(θ)_ij = 𝔼_p(x;θ) [ ∂_i log p(x;θ) · ∂_j log p(x;θ) ]

翻译成人话：把对数概率对参数求偏导，然后对数据取期望，得到的矩阵就是 Fisher 信息。它告诉你：如果参数沿某个方向移动一小步，观测到的数据平均会”感受到”多大的变化。Fisher 信息越大，意味着参数在那个方向上”信息含量越高”，分布对参数更敏感。

💡 直觉类比：想象你站在山上，地图平面坐标是参数 θ，海拔是”这个参数对应的分布与真实分布之间的差距”。Fisher 信息矩阵，就是这张地图的局部地形坡度信息——哪个方向更陡，哪个方向更平，都编码在里面。

关键在于，Fisher 信息矩阵 I(θ) 并非任意选择的度量，而是统计模型上最自然的那个。它对参数重参数化保持不变（协变），也就是说，不管你用什么坐标系描述概率分布族，曲率的实质不变。^[2]

🔑 核心概念：Fisher-Rao 度量

用 Fisher 信息矩阵作为黎曼度量张量，就得到了 Fisher-Rao 度量。在参数空间局部，两组参数 θ 和 θ+dθ 之间的”统计距离”为：

ds² = Σ_ij I(θ)_ij dθⁱ dθ^j

翻译成人话：这个”距离”不是欧氏距离（所有方向平等），而是经过 Fisher 矩阵加权后的距离。Fisher 信息大的方向，微小的参数变化就会带来很大的分布变化，对应”统计距离更长”；Fisher 信息小的方向，参数变化对分布影响小，统计距离短。

甚至有更深刻的结论：近期研究提出，任何 Kähler 度量（复几何中一大类自然度量）都可以被实现为某种 Fisher 信息度量。^[4] 如果这一结果成立，它说明 Fisher 型结构并不是统计学小众工具——它和更广泛的几何结构深度相通。

二、统计流形：概率分布的几何舞台

有了 Fisher-Rao 度量，我们就可以把概率分布族正式看作一张黎曼流形。

🔑 什么是统计流形？

给定一族参数化概率分布 {p(x;θ) : θ ∈ Ω}，将每个参数值 θ 对应一个流形上的点，用 Fisher-Rao 度量赋予局部曲率，这就是统计流形（Statistical Manifold）。^[3]

翻译成人话：概率分布不再是抽象函数，而是”空间中的一个点”。所有正态分布构成一张曲面，高斯混合模型构成更高维的弯曲空间，每个特定的分布就是这张曲面上的一个位置。

流形上有了度量，就可以问很多有趣的几何问题：

测地线：两个分布之间”最短路径”是什么？
曲率：某区域的空间是弯曲的还是近似平的？曲率大的区域，参数估计更困难。
对偶联络：信息几何引入了一对对偶仿射联络（e-联络和 m-联络），分别对应”指数族结构”和”混合族结构”。

📐 对偶结构的意义

信息几何的核心特色之一是对偶几何：同一张统计流形上可以装备两套仿射联络（∇ 和 ∇*），它们关于 Fisher-Rao 度量互为对偶。

翻译成人话：你可以用两种”平行移动”的方式在概率空间里走路——一种叫”e-平坦”（指数族参数化视角），一种叫”m-平坦”（混合族参数化视角）。最大似然估计走的是其中一条路，Bayes 推断走的是另一条。两条路在平坦空间里重合，在弯曲空间里分叉——这个分叉是信息几何告诉你”为什么统计推断不总是那么直观”的重要原因之一。^[1]

统计流形上的几何量——度量、曲率、散度——共同构成了理解统计推断问题的语言框架。^[3] 而这个框架的内禀性（不依赖参数化选择）是它最大的优势：无论你怎么换参数坐标，流形本身的形状不变。^[13]

三、自然梯度：顺着曲率学习

统计流形的思想进入机器学习，最直接的落地是自然梯度（Natural Gradient）。

💡 普通梯度 vs 自然梯度

普通（欧氏）梯度下降假设参数空间是平的：所有参数方向都同等重要，步长也相同。但参数空间实际上是弯曲的统计流形——有些方向改变分布很多，有些方向几乎没有影响。

打个比方：你在一个椭圆形的山谷里找最低点。用欧氏梯度，你每步沿着坐标轴走；而用自然梯度，你会先把椭圆”扳圆”，然后再走——因为你知道椭圆的两个方向敏感度不一样。

📐 自然梯度的定义

∇̃_nat L(θ) = I(θ)^-1 · ∇L(θ)

翻译成人话：自然梯度就是用 Fisher 信息矩阵的逆矩阵，把普通梯度”拉回”到概率流形的正确几何里。这一步校正使得每次参数更新都对应分布空间里真正有意义的移动——而不是参数坐标系里一个任意方向的步长。^[5]

Amari 和同事在 2000 年的工作^[5]表明，在多层感知机中实现自然梯度学习，可以显著改善收敛速度和学习效率。其核心在于：Fisher 几何修正了参数化方式带来的扭曲，让学习方向更贴近模型真实敏感方向。

🔬 深度学习中的 Fisher 几何

在随机深层网络中，Fisher 信息矩阵描述了参数空间的局部几何结构。^[7] 这让自然梯度、近似二阶优化方法（如 K-FAC）以及训练稳定性分析，能统一在一个几何框架下理解。

更有意思的是：多层感知机参数空间存在”奇异点”——某些参数配置处 Fisher 矩阵退化，导致梯度信息失真，训练会陷入”高原期”。自然梯度揭示了这些奇异性的几何本质，而非仅仅把它当作优化噪声处理。^[6]

变分推断同样是信息几何的重要应用场景。当我们在一族近似分布里寻找最接近后验的那个，本质上是在统计流形上做优化。^[8] 几何视角让我们理解：不同的近似族（高斯族、指数族……）对应不同形状的子流形，优化结果取决于这个子流形和后验分布的几何关系。

学习过程本身也可以被视为由数据、参数与模型映射共同诱导出的几何结构。^[9] 从这个角度看，”学得好不好”不再是一个纯粹的数字问题，而是一个几何问题：模型映射是否和数据流形的曲率相匹配？

四、最优传输桥接：另一套概率几何语言

信息几何并非研究概率空间几何的唯一路径。近年来，最优传输（Optimal Transport, OT）理论也提供了一套强大的概率空间几何语言——而且两者正在互相靠近。^[12]

🔑 Wasserstein 距离 vs Fisher-Rao 距离

最优传输定义了概率分布之间的 Wasserstein 距离——把一堆”质量”从一个分布搬运到另一个分布的最小代价。Fisher-Rao 距离则基于统计可分辨性。两者都是”概率分布空间上的距离”，但几何结构不同：

Fisher-Rao：参数空间曲率，统计推断视角
Wasserstein：质量搬运代价，样本空间结构视角

翻译成人话：Fisher-Rao 问的是”两个分布在统计上有多难区分”，Wasserstein 问的是”把一个分布的形状变成另一个形状要搬多远的土”。一个关注参数空间，一个关注样本空间。

2022 年的工作表明，伪黎曼几何可以在最优传输的框架里编码信息几何结构。^[11] 换言之，两套语言之间有深层的数学对应——不是竞争关系，而是同一个底层真实结构的不同侧面。

🔬 两套几何语言的汇合

信息几何与最优传输的桥接意义在于：

信息几何擅长处理参数化模型族，对统计推断、学习算法更自然；
最优传输擅长处理无参数的分布比较，对生成模型、分布匹配更直接；
两者的几何结构在某些条件下可以互相转化，为”概率空间上的计算”提供了统一视野。^[12]

此外，信息几何的框架也已经扩展到非欧结构。例如，双曲指数族（Poincaré 分布、双曲面分布）上的信息几何，可以和双曲空间嵌入、层级结构表示学习等现代应用相连接。^[10]

五、复杂系统中的应用

信息几何不只是机器学习的工具箱。它在复杂系统、统计物理和演化理论中都有深刻的踪迹。

5.1 分岔点附近的几何

🌍 应用案例：信息几何与分岔理论

当一个动力系统接近分岔点时，系统的统计性质会发生剧烈变化——波动增大、相关性增长、恢复速度减慢。信息几何提供了一套协变（参数化无关）的方式来描述这些变化。^[14]

翻译成人话：临近”临界转变”（比如生态崩溃、心脏骤停前的某些先兆）时，系统的概率分布会在统计流形上”加速运动”——Fisher-Rao 距离的变化率加快。这个几何信号可以作为早期预警指标。

5.2 统计物理的热力学度量

热力学系统的相变和结构转变，也在信息几何框架里留有印记。研究表明，Fisher-Widom 线（简单流体的结构过渡边界）可以用热力学度量几何精确定位。^[15] 几何量——特别是曲率——编码了系统相行为和结构转变的信息。

📐 为什么曲率可以预测相变？

在统计物理中，系统的宏观状态对应参数化分布族（配分函数、热力学势）。当系统发生相变，参数空间的度量曲率会在相变点附近出现异常——类似于流形上的”奇点”。^[15]

翻译成人话：相变是概率分布族在统计流形上剧烈弯折的信号。曲率爆炸的地方，就是系统宏观行为骤变的地方。几何探测到了物理。

5.3 演化与 Fisher 信息最大化

🌍 应用案例：自然选择最大化 Fisher 信息

Steven Frank 2009 年的工作给出了一个令人惊讶的命题：自然选择在某种意义上最大化了系统从环境中”获取可分辨结构”的能力，而 Fisher 信息正是这种能力的度量。^[16]

翻译成人话：自然选择不只是”适应度最大化”——它也可以被看作一种几何优化过程，使得生物体关于环境参数的 Fisher 信息趋向最大。越”了解”环境的生物，在统计流形上的位置越精确，对适应性扰动越不敏感。

Fisher 信息还出现在量子力学的演化方程里：量子概率振幅的信息几何可以描述演化速度与约束，Fisher 信息的衰减刻画了量子态在信息几何意义上的”扩散”。^[17]

六、跨领域联系

6.1 感知与记忆的几何

信息几何的触角延伸到了认知神经科学。人类记忆颜色时，不同颜色之间的感知距离并不均匀——这种不均匀正好符合 Fisher 信息度量的结构。^[19]

🔬 记忆颜色的 Fisher 几何

对颜色记忆的实证分析发现，人类主观色彩空间的度量结构与 Fisher-Rao 度量高度吻合——感知区分越困难的颜色对（Fisher 信息低的方向），对应的感知距离越短。^[19] 大脑似乎在”用信息几何表征颜色”。

眼动研究同样发现了信息几何的踪迹：眼球运动的统计规律，可以用信息几何框架来建模和解释。^[20] 这暗示着：凡是涉及”感知—估计—决策”的系统，Fisher 几何往往自然浮现。

6.2 神经表征的统计流形

🌍 应用案例：视网膜表征流形

视网膜神经元的编码空间，可以用信息几何来分析其流形结构。^[18] 神经系统对视觉刺激的表征，不是随机散布在高维空间里，而是形成具有特定曲率结构的低维流形——Fisher 信息刻画了这个流形的局部弯曲程度。

翻译成人话：大脑的神经表征有几何结构。信息几何给了我们测量这个结构的工具。

七、前沿：信息几何往哪走？

🚀 前沿方向 1：双曲信息几何

传统信息几何处理欧氏参数空间；新的工作把它扩展到双曲几何——Poincaré 分布、双曲面分布等在层级结构表示学习中有独特优势。^[10] 与双曲空间嵌入的结合，可能在知识图谱、树状结构建模上带来突破。

🚀 前沿方向 2：信息几何 × 最优传输的统一框架

两套概率几何语言——Fisher-Rao 和 Wasserstein——的数学结构已经有了深度对应关系。^[11]^[12] 统一框架的建立，将可能为生成模型、分布匹配、统计推断提供更强大的理论基础。

🚀 前沿方向 3：深度学习的几何可解释性

Fisher 信息矩阵用于理解深层网络参数空间的奇异性和训练动力学，是当前深度学习理论的活跃前沿。^[6]^[7] 近似自然梯度方法（K-FAC 等）正在从理论走向工程实践。

🚀 前沿方向 4：复杂系统早期预警

利用统计流形曲率变化检测临界转变的方法，可能在气候系统、生态系统、心脏医学等领域提供新型早期预警信号。^[14] 把抽象几何工具变成实用的预警仪表盘，是这个方向的终极目标。

🎯 关键要点

信息几何把参数化概率分布族视为黎曼流形，Fisher 信息矩阵给出局部度量，这套语言统一了统计推断、机器学习优化与复杂系统建模。^[1]^[3]
Fisher-Rao 度量不是任意选择：它对参数化方式具有不变性，是统计模型上最自然的几何结构，且可能与更广泛的几何对象（如 Kähler 度量）深度相通。^[2]^[4]
自然梯度 = 用 Fisher 矩阵的逆矫正普通梯度，使学习方向符合概率流形真实曲率，是信息几何在机器学习中最直接的落地。^[5]^[7]
信息几何与最优传输正在从两条路向同一个目标靠近：为”概率空间上的计算”建立统一的几何语言。^[11]^[12]
在复杂系统里，统计流形的曲率变化可以用于检测相变、分岔和临界转变，这是信息几何走出数学、走向应用的重要方向。^[14]^[15]
就连自然选择也可以被解读为 Fisher 信息最大化过程——几何视角把统计学、物理学、生物学和机器学习串在了一根线上。^[16]

📚 参考文献

Nielsen F. An Elementary Introduction to Information Geometry. Entropy. 2020. https://doi.org/10.3390/e22101100
Lê HV. Natural differentiable structures on statistical models and the Fisher metric. Information Geometry. 2022. https://arxiv.org/abs/2208.06539
Vos P, et al. Geometry of Statistical Manifolds. Entropy. 2025. https://doi.org/10.3390/e27111110
Gnandi E. Any Kähler metric is a Fisher information metric. arXiv preprint. 2024. https://arxiv.org/abs/2405.19020
Amari S, et al. Adaptive method of realizing natural gradient learning for multilayer perceptrons. Neural Computation. 2000. https://doi.org/10.1162/089976600300015420
Amari S, et al. Dynamics of Learning in MLP: Natural Gradient and Singularity Revisited. Neural Computation. 2018. https://doi.org/10.1162/neco_a_01029
Amari S, et al. Fisher Information and Natural Gradient Learning of Random Deep Networks. arXiv preprint. 2018. https://arxiv.org/abs/1808.07172
Frank P, et al. Geometric Variational Inference. Entropy. 2021. https://doi.org/10.3390/e23070853
Puechmorel S, et al. Pullback Bundles and the Geometry of Learning. Entropy. 2023. https://doi.org/10.3390/e25101450
Nielsen F, et al. Information measures and geometry of the hyperbolic exponential families of Poincaré and hyperboloid distributions. Information Geometry. 2022. https://arxiv.org/abs/2205.13984
Wong T, et al. Pseudo-Riemannian geometry encodes information geometry in optimal transport. Information Geometry. 2022. https://doi.org/10.1007/s41884-021-00053-7
Khan G, et al. When Optimal Transport Meets Information Geometry. Information Geometry. 2022. https://arxiv.org/abs/2206.14791
Bernal-Casas D, et al. Intrinsic Information-Theoretic Models. Entropy. 2024. https://doi.org/10.3390/e26050370
da Silva V, et al. Information geometry theory of bifurcations? A covariant formulation. Chaos. 2022. https://doi.org/10.1063/5.0069033
Mausbach P, et al. Thermodynamic metric geometry and the Fisher-Widom line of simple fluids. Physical Review E. 2022. https://doi.org/10.1103/PhysRevE.106.034136
Frank SA. Natural selection maximizes Fisher information. Journal of Evolutionary Biology. 2009. https://arxiv.org/abs/0901.3742
Cafaro C, et al. Decrease of Fisher information and the information geometry of evolution equations for quantum mechanical probability amplitudes. Physical Review E. 2018. https://doi.org/10.1103/PhysRevE.97.042110
Ding X, et al. Information Geometry of the Retinal Representation Manifold. bioRxiv. 2023. https://doi.org/10.1101/2023.05.17.541206
da Fonseca M, et al. The subjective metric of remembered colors: A Fisher-information analysis of the geometry of human chromatic memory. PLoS ONE. 2019. https://doi.org/10.1371/journal.pone.0207992
Lenz R, et al. Eye movements and information geometry. Journal of the Optical Society of America A. 2016. https://doi.org/10.1364/JOSAA.33.001598