跳至正文

信息几何:用曲率理解概率

🟣 数学证明 📅 2026年3月 ⏱ 阅读约12分钟

你有没有想过:两个概率分布之间的”距离”,是多少?

均值相差 1 的两个正态分布,和方差差了一倍的两个正态分布,哪对”更不一样”?普通减法给不出答案——因为概率分布不住在数轴上,它们住在一个有曲率的几何空间里。

信息几何就是研究这个空间的学问。它把一族概率分布视为一张有形状、有弯曲的流形,用 Fisher 信息矩阵定义”距离感”,用曲率解释为什么有些估计更难,为什么神经网络训练会在某些区域陷入停滞,以及为什么自然选择可以被看作一种几何优化。[1]

这篇文章从最基本的问题出发,沿着 Fisher 信息 → 统计流形 → 自然梯度 → 最优传输 → 复杂系统 这条线,带你走一遍信息几何的核心骨架。

📑 本文目录

一、Fisher 信息:曲率的度量单位

一切从一个问题开始:参数 θ 改变一点点,分布会改变多少?

Fisher 信息矩阵的定义:

I(θ)ij = 𝔼p(x;θ) [ ∂i log p(x;θ) · ∂j log p(x;θ) ]

翻译成人话:把对数概率对参数求偏导,然后对数据取期望,得到的矩阵就是 Fisher 信息。它告诉你:如果参数沿某个方向移动一小步,观测到的数据平均会”感受到”多大的变化。Fisher 信息越大,意味着参数在那个方向上”信息含量越高”,分布对参数更敏感。

💡 直觉类比:想象你站在山上,地图平面坐标是参数 θ,海拔是”这个参数对应的分布与真实分布之间的差距”。Fisher 信息矩阵,就是这张地图的局部地形坡度信息——哪个方向更陡,哪个方向更平,都编码在里面。

关键在于,Fisher 信息矩阵 I(θ) 并非任意选择的度量,而是统计模型上最自然的那个。它对参数重参数化保持不变(协变),也就是说,不管你用什么坐标系描述概率分布族,曲率的实质不变。[2]

🔑 核心概念:Fisher-Rao 度量

用 Fisher 信息矩阵作为黎曼度量张量,就得到了 Fisher-Rao 度量。在参数空间局部,两组参数 θ 和 θ+dθ 之间的”统计距离”为:

ds² = Σij I(θ)ijij

翻译成人话:这个”距离”不是欧氏距离(所有方向平等),而是经过 Fisher 矩阵加权后的距离。Fisher 信息大的方向,微小的参数变化就会带来很大的分布变化,对应”统计距离更长”;Fisher 信息小的方向,参数变化对分布影响小,统计距离短。

甚至有更深刻的结论:近期研究提出,任何 Kähler 度量(复几何中一大类自然度量)都可以被实现为某种 Fisher 信息度量。[4] 如果这一结果成立,它说明 Fisher 型结构并不是统计学小众工具——它和更广泛的几何结构深度相通。

二、统计流形:概率分布的几何舞台

有了 Fisher-Rao 度量,我们就可以把概率分布族正式看作一张黎曼流形

🔑 什么是统计流形?

给定一族参数化概率分布 {p(x;θ) : θ ∈ Ω},将每个参数值 θ 对应一个流形上的点,用 Fisher-Rao 度量赋予局部曲率,这就是统计流形(Statistical Manifold)。[3]

翻译成人话:概率分布不再是抽象函数,而是”空间中的一个点”。所有正态分布构成一张曲面,高斯混合模型构成更高维的弯曲空间,每个特定的分布就是这张曲面上的一个位置。

流形上有了度量,就可以问很多有趣的几何问题:

  • 测地线:两个分布之间”最短路径”是什么?
  • 曲率:某区域的空间是弯曲的还是近似平的?曲率大的区域,参数估计更困难。
  • 对偶联络:信息几何引入了一对对偶仿射联络(e-联络和 m-联络),分别对应”指数族结构”和”混合族结构”。

📐 对偶结构的意义

信息几何的核心特色之一是对偶几何:同一张统计流形上可以装备两套仿射联络(∇ 和 ∇*),它们关于 Fisher-Rao 度量互为对偶。

翻译成人话:你可以用两种”平行移动”的方式在概率空间里走路——一种叫”e-平坦”(指数族参数化视角),一种叫”m-平坦”(混合族参数化视角)。最大似然估计走的是其中一条路,Bayes 推断走的是另一条。两条路在平坦空间里重合,在弯曲空间里分叉——这个分叉是信息几何告诉你”为什么统计推断不总是那么直观”的重要原因之一。[1]

统计流形上的几何量——度量、曲率、散度——共同构成了理解统计推断问题的语言框架。[3] 而这个框架的内禀性(不依赖参数化选择)是它最大的优势:无论你怎么换参数坐标,流形本身的形状不变。[13]

三、自然梯度:顺着曲率学习

统计流形的思想进入机器学习,最直接的落地是自然梯度(Natural Gradient)。

💡 普通梯度 vs 自然梯度

普通(欧氏)梯度下降假设参数空间是平的:所有参数方向都同等重要,步长也相同。但参数空间实际上是弯曲的统计流形——有些方向改变分布很多,有些方向几乎没有影响。

打个比方:你在一个椭圆形的山谷里找最低点。用欧氏梯度,你每步沿着坐标轴走;而用自然梯度,你会先把椭圆”扳圆”,然后再走——因为你知道椭圆的两个方向敏感度不一样。

📐 自然梯度的定义

∇̃nat L(θ) = I(θ)-1 · ∇L(θ)

翻译成人话:自然梯度就是用 Fisher 信息矩阵的逆矩阵,把普通梯度”拉回”到概率流形的正确几何里。这一步校正使得每次参数更新都对应分布空间里真正有意义的移动——而不是参数坐标系里一个任意方向的步长。[5]

Amari 和同事在 2000 年的工作[5]表明,在多层感知机中实现自然梯度学习,可以显著改善收敛速度和学习效率。其核心在于:Fisher 几何修正了参数化方式带来的扭曲,让学习方向更贴近模型真实敏感方向。

🔬 深度学习中的 Fisher 几何

在随机深层网络中,Fisher 信息矩阵描述了参数空间的局部几何结构。[7] 这让自然梯度、近似二阶优化方法(如 K-FAC)以及训练稳定性分析,能统一在一个几何框架下理解。

更有意思的是:多层感知机参数空间存在”奇异点”——某些参数配置处 Fisher 矩阵退化,导致梯度信息失真,训练会陷入”高原期”。自然梯度揭示了这些奇异性的几何本质,而非仅仅把它当作优化噪声处理。[6]

变分推断同样是信息几何的重要应用场景。当我们在一族近似分布里寻找最接近后验的那个,本质上是在统计流形上做优化。[8] 几何视角让我们理解:不同的近似族(高斯族、指数族……)对应不同形状的子流形,优化结果取决于这个子流形和后验分布的几何关系。

学习过程本身也可以被视为由数据、参数与模型映射共同诱导出的几何结构。[9] 从这个角度看,”学得好不好”不再是一个纯粹的数字问题,而是一个几何问题:模型映射是否和数据流形的曲率相匹配?

四、最优传输桥接:另一套概率几何语言

信息几何并非研究概率空间几何的唯一路径。近年来,最优传输(Optimal Transport, OT)理论也提供了一套强大的概率空间几何语言——而且两者正在互相靠近。[12]

🔑 Wasserstein 距离 vs Fisher-Rao 距离

最优传输定义了概率分布之间的 Wasserstein 距离——把一堆”质量”从一个分布搬运到另一个分布的最小代价。Fisher-Rao 距离则基于统计可分辨性。两者都是”概率分布空间上的距离”,但几何结构不同:

  • Fisher-Rao:参数空间曲率,统计推断视角
  • Wasserstein:质量搬运代价,样本空间结构视角

翻译成人话:Fisher-Rao 问的是”两个分布在统计上有多难区分”,Wasserstein 问的是”把一个分布的形状变成另一个形状要搬多远的土”。一个关注参数空间,一个关注样本空间。

2022 年的工作表明,伪黎曼几何可以在最优传输的框架里编码信息几何结构。[11] 换言之,两套语言之间有深层的数学对应——不是竞争关系,而是同一个底层真实结构的不同侧面。

🔬 两套几何语言的汇合

信息几何与最优传输的桥接意义在于:

  • 信息几何擅长处理参数化模型族,对统计推断、学习算法更自然;
  • 最优传输擅长处理无参数的分布比较,对生成模型、分布匹配更直接;
  • 两者的几何结构在某些条件下可以互相转化,为”概率空间上的计算”提供了统一视野。[12]

此外,信息几何的框架也已经扩展到非欧结构。例如,双曲指数族(Poincaré 分布、双曲面分布)上的信息几何,可以和双曲空间嵌入、层级结构表示学习等现代应用相连接。[10]

五、复杂系统中的应用

信息几何不只是机器学习的工具箱。它在复杂系统、统计物理和演化理论中都有深刻的踪迹。

5.1 分岔点附近的几何

🌍 应用案例:信息几何与分岔理论

当一个动力系统接近分岔点时,系统的统计性质会发生剧烈变化——波动增大、相关性增长、恢复速度减慢。信息几何提供了一套协变(参数化无关)的方式来描述这些变化。[14]

翻译成人话:临近”临界转变”(比如生态崩溃、心脏骤停前的某些先兆)时,系统的概率分布会在统计流形上”加速运动”——Fisher-Rao 距离的变化率加快。这个几何信号可以作为早期预警指标。

5.2 统计物理的热力学度量

热力学系统的相变和结构转变,也在信息几何框架里留有印记。研究表明,Fisher-Widom 线(简单流体的结构过渡边界)可以用热力学度量几何精确定位。[15] 几何量——特别是曲率——编码了系统相行为和结构转变的信息。

📐 为什么曲率可以预测相变?

在统计物理中,系统的宏观状态对应参数化分布族(配分函数、热力学势)。当系统发生相变,参数空间的度量曲率会在相变点附近出现异常——类似于流形上的”奇点”。[15]

翻译成人话:相变是概率分布族在统计流形上剧烈弯折的信号。曲率爆炸的地方,就是系统宏观行为骤变的地方。几何探测到了物理。

5.3 演化与 Fisher 信息最大化

🌍 应用案例:自然选择最大化 Fisher 信息

Steven Frank 2009 年的工作给出了一个令人惊讶的命题:自然选择在某种意义上最大化了系统从环境中”获取可分辨结构”的能力,而 Fisher 信息正是这种能力的度量。[16]

翻译成人话:自然选择不只是”适应度最大化”——它也可以被看作一种几何优化过程,使得生物体关于环境参数的 Fisher 信息趋向最大。越”了解”环境的生物,在统计流形上的位置越精确,对适应性扰动越不敏感。

Fisher 信息还出现在量子力学的演化方程里:量子概率振幅的信息几何可以描述演化速度与约束,Fisher 信息的衰减刻画了量子态在信息几何意义上的”扩散”。[17]

六、跨领域联系

6.1 感知与记忆的几何

信息几何的触角延伸到了认知神经科学。人类记忆颜色时,不同颜色之间的感知距离并不均匀——这种不均匀正好符合 Fisher 信息度量的结构。[19]

🔬 记忆颜色的 Fisher 几何

对颜色记忆的实证分析发现,人类主观色彩空间的度量结构与 Fisher-Rao 度量高度吻合——感知区分越困难的颜色对(Fisher 信息低的方向),对应的感知距离越短。[19] 大脑似乎在”用信息几何表征颜色”。

眼动研究同样发现了信息几何的踪迹:眼球运动的统计规律,可以用信息几何框架来建模和解释。[20] 这暗示着:凡是涉及”感知—估计—决策”的系统,Fisher 几何往往自然浮现。

6.2 神经表征的统计流形

🌍 应用案例:视网膜表征流形

视网膜神经元的编码空间,可以用信息几何来分析其流形结构。[18] 神经系统对视觉刺激的表征,不是随机散布在高维空间里,而是形成具有特定曲率结构的低维流形——Fisher 信息刻画了这个流形的局部弯曲程度。

翻译成人话:大脑的神经表征有几何结构。信息几何给了我们测量这个结构的工具。

七、前沿:信息几何往哪走?

🚀 前沿方向 1:双曲信息几何

传统信息几何处理欧氏参数空间;新的工作把它扩展到双曲几何——Poincaré 分布、双曲面分布等在层级结构表示学习中有独特优势。[10] 与双曲空间嵌入的结合,可能在知识图谱、树状结构建模上带来突破。

🚀 前沿方向 2:信息几何 × 最优传输的统一框架

两套概率几何语言——Fisher-Rao 和 Wasserstein——的数学结构已经有了深度对应关系。[11][12] 统一框架的建立,将可能为生成模型、分布匹配、统计推断提供更强大的理论基础。

🚀 前沿方向 3:深度学习的几何可解释性

Fisher 信息矩阵用于理解深层网络参数空间的奇异性和训练动力学,是当前深度学习理论的活跃前沿。[6][7] 近似自然梯度方法(K-FAC 等)正在从理论走向工程实践。

🚀 前沿方向 4:复杂系统早期预警

利用统计流形曲率变化检测临界转变的方法,可能在气候系统、生态系统、心脏医学等领域提供新型早期预警信号。[14] 把抽象几何工具变成实用的预警仪表盘,是这个方向的终极目标。


🎯 关键要点
  • 信息几何把参数化概率分布族视为黎曼流形,Fisher 信息矩阵给出局部度量,这套语言统一了统计推断、机器学习优化与复杂系统建模。[1][3]
  • Fisher-Rao 度量不是任意选择:它对参数化方式具有不变性,是统计模型上最自然的几何结构,且可能与更广泛的几何对象(如 Kähler 度量)深度相通。[2][4]
  • 自然梯度 = 用 Fisher 矩阵的逆矫正普通梯度,使学习方向符合概率流形真实曲率,是信息几何在机器学习中最直接的落地。[5][7]
  • 信息几何与最优传输正在从两条路向同一个目标靠近:为”概率空间上的计算”建立统一的几何语言。[11][12]
  • 在复杂系统里,统计流形的曲率变化可以用于检测相变、分岔和临界转变,这是信息几何走出数学、走向应用的重要方向。[14][15]
  • 就连自然选择也可以被解读为 Fisher 信息最大化过程——几何视角把统计学、物理学、生物学和机器学习串在了一根线上。[16]

📚 参考文献

  1. Nielsen F. An Elementary Introduction to Information Geometry. Entropy. 2020. https://doi.org/10.3390/e22101100
  2. Lê HV. Natural differentiable structures on statistical models and the Fisher metric. Information Geometry. 2022. https://arxiv.org/abs/2208.06539
  3. Vos P, et al. Geometry of Statistical Manifolds. Entropy. 2025. https://doi.org/10.3390/e27111110
  4. Gnandi E. Any Kähler metric is a Fisher information metric. arXiv preprint. 2024. https://arxiv.org/abs/2405.19020
  5. Amari S, et al. Adaptive method of realizing natural gradient learning for multilayer perceptrons. Neural Computation. 2000. https://doi.org/10.1162/089976600300015420
  6. Amari S, et al. Dynamics of Learning in MLP: Natural Gradient and Singularity Revisited. Neural Computation. 2018. https://doi.org/10.1162/neco_a_01029
  7. Amari S, et al. Fisher Information and Natural Gradient Learning of Random Deep Networks. arXiv preprint. 2018. https://arxiv.org/abs/1808.07172
  8. Frank P, et al. Geometric Variational Inference. Entropy. 2021. https://doi.org/10.3390/e23070853
  9. Puechmorel S, et al. Pullback Bundles and the Geometry of Learning. Entropy. 2023. https://doi.org/10.3390/e25101450
  10. Nielsen F, et al. Information measures and geometry of the hyperbolic exponential families of Poincaré and hyperboloid distributions. Information Geometry. 2022. https://arxiv.org/abs/2205.13984
  11. Wong T, et al. Pseudo-Riemannian geometry encodes information geometry in optimal transport. Information Geometry. 2022. https://doi.org/10.1007/s41884-021-00053-7
  12. Khan G, et al. When Optimal Transport Meets Information Geometry. Information Geometry. 2022. https://arxiv.org/abs/2206.14791
  13. Bernal-Casas D, et al. Intrinsic Information-Theoretic Models. Entropy. 2024. https://doi.org/10.3390/e26050370
  14. da Silva V, et al. Information geometry theory of bifurcations? A covariant formulation. Chaos. 2022. https://doi.org/10.1063/5.0069033
  15. Mausbach P, et al. Thermodynamic metric geometry and the Fisher-Widom line of simple fluids. Physical Review E. 2022. https://doi.org/10.1103/PhysRevE.106.034136
  16. Frank SA. Natural selection maximizes Fisher information. Journal of Evolutionary Biology. 2009. https://arxiv.org/abs/0901.3742
  17. Cafaro C, et al. Decrease of Fisher information and the information geometry of evolution equations for quantum mechanical probability amplitudes. Physical Review E. 2018. https://doi.org/10.1103/PhysRevE.97.042110
  18. Ding X, et al. Information Geometry of the Retinal Representation Manifold. bioRxiv. 2023. https://doi.org/10.1101/2023.05.17.541206
  19. da Fonseca M, et al. The subjective metric of remembered colors: A Fisher-information analysis of the geometry of human chromatic memory. PLoS ONE. 2019. https://doi.org/10.1371/journal.pone.0207992
  20. Lenz R, et al. Eye movements and information geometry. Journal of the Optical Society of America A. 2016. https://doi.org/10.1364/JOSAA.33.001598