你有没有想过:两个概率分布之间的”距离”,是多少?
均值相差 1 的两个正态分布,和方差差了一倍的两个正态分布,哪对”更不一样”?普通减法给不出答案——因为概率分布不住在数轴上,它们住在一个有曲率的几何空间里。
信息几何就是研究这个空间的学问。它把一族概率分布视为一张有形状、有弯曲的流形,用 Fisher 信息矩阵定义”距离感”,用曲率解释为什么有些估计更难,为什么神经网络训练会在某些区域陷入停滞,以及为什么自然选择可以被看作一种几何优化。[1]
这篇文章从最基本的问题出发,沿着 Fisher 信息 → 统计流形 → 自然梯度 → 最优传输 → 复杂系统 这条线,带你走一遍信息几何的核心骨架。
📑 本文目录
一、Fisher 信息:曲率的度量单位
一切从一个问题开始:参数 θ 改变一点点,分布会改变多少?
Fisher 信息矩阵的定义:
I(θ)ij = 𝔼p(x;θ) [ ∂i log p(x;θ) · ∂j log p(x;θ) ]
翻译成人话:把对数概率对参数求偏导,然后对数据取期望,得到的矩阵就是 Fisher 信息。它告诉你:如果参数沿某个方向移动一小步,观测到的数据平均会”感受到”多大的变化。Fisher 信息越大,意味着参数在那个方向上”信息含量越高”,分布对参数更敏感。
💡 直觉类比:想象你站在山上,地图平面坐标是参数 θ,海拔是”这个参数对应的分布与真实分布之间的差距”。Fisher 信息矩阵,就是这张地图的局部地形坡度信息——哪个方向更陡,哪个方向更平,都编码在里面。
关键在于,Fisher 信息矩阵 I(θ) 并非任意选择的度量,而是统计模型上最自然的那个。它对参数重参数化保持不变(协变),也就是说,不管你用什么坐标系描述概率分布族,曲率的实质不变。[2]
🔑 核心概念:Fisher-Rao 度量
用 Fisher 信息矩阵作为黎曼度量张量,就得到了 Fisher-Rao 度量。在参数空间局部,两组参数 θ 和 θ+dθ 之间的”统计距离”为:
ds² = Σij I(θ)ij dθi dθj
翻译成人话:这个”距离”不是欧氏距离(所有方向平等),而是经过 Fisher 矩阵加权后的距离。Fisher 信息大的方向,微小的参数变化就会带来很大的分布变化,对应”统计距离更长”;Fisher 信息小的方向,参数变化对分布影响小,统计距离短。
甚至有更深刻的结论:近期研究提出,任何 Kähler 度量(复几何中一大类自然度量)都可以被实现为某种 Fisher 信息度量。[4] 如果这一结果成立,它说明 Fisher 型结构并不是统计学小众工具——它和更广泛的几何结构深度相通。
二、统计流形:概率分布的几何舞台
有了 Fisher-Rao 度量,我们就可以把概率分布族正式看作一张黎曼流形。
🔑 什么是统计流形?
给定一族参数化概率分布 {p(x;θ) : θ ∈ Ω},将每个参数值 θ 对应一个流形上的点,用 Fisher-Rao 度量赋予局部曲率,这就是统计流形(Statistical Manifold)。[3]
翻译成人话:概率分布不再是抽象函数,而是”空间中的一个点”。所有正态分布构成一张曲面,高斯混合模型构成更高维的弯曲空间,每个特定的分布就是这张曲面上的一个位置。
流形上有了度量,就可以问很多有趣的几何问题:
- 测地线:两个分布之间”最短路径”是什么?
- 曲率:某区域的空间是弯曲的还是近似平的?曲率大的区域,参数估计更困难。
- 对偶联络:信息几何引入了一对对偶仿射联络(e-联络和 m-联络),分别对应”指数族结构”和”混合族结构”。
📐 对偶结构的意义
信息几何的核心特色之一是对偶几何:同一张统计流形上可以装备两套仿射联络(∇ 和 ∇*),它们关于 Fisher-Rao 度量互为对偶。
翻译成人话:你可以用两种”平行移动”的方式在概率空间里走路——一种叫”e-平坦”(指数族参数化视角),一种叫”m-平坦”(混合族参数化视角)。最大似然估计走的是其中一条路,Bayes 推断走的是另一条。两条路在平坦空间里重合,在弯曲空间里分叉——这个分叉是信息几何告诉你”为什么统计推断不总是那么直观”的重要原因之一。[1]
统计流形上的几何量——度量、曲率、散度——共同构成了理解统计推断问题的语言框架。[3] 而这个框架的内禀性(不依赖参数化选择)是它最大的优势:无论你怎么换参数坐标,流形本身的形状不变。[13]
三、自然梯度:顺着曲率学习
统计流形的思想进入机器学习,最直接的落地是自然梯度(Natural Gradient)。
💡 普通梯度 vs 自然梯度
普通(欧氏)梯度下降假设参数空间是平的:所有参数方向都同等重要,步长也相同。但参数空间实际上是弯曲的统计流形——有些方向改变分布很多,有些方向几乎没有影响。
打个比方:你在一个椭圆形的山谷里找最低点。用欧氏梯度,你每步沿着坐标轴走;而用自然梯度,你会先把椭圆”扳圆”,然后再走——因为你知道椭圆的两个方向敏感度不一样。
📐 自然梯度的定义
∇̃nat L(θ) = I(θ)-1 · ∇L(θ)
翻译成人话:自然梯度就是用 Fisher 信息矩阵的逆矩阵,把普通梯度”拉回”到概率流形的正确几何里。这一步校正使得每次参数更新都对应分布空间里真正有意义的移动——而不是参数坐标系里一个任意方向的步长。[5]
Amari 和同事在 2000 年的工作[5]表明,在多层感知机中实现自然梯度学习,可以显著改善收敛速度和学习效率。其核心在于:Fisher 几何修正了参数化方式带来的扭曲,让学习方向更贴近模型真实敏感方向。
🔬 深度学习中的 Fisher 几何
在随机深层网络中,Fisher 信息矩阵描述了参数空间的局部几何结构。[7] 这让自然梯度、近似二阶优化方法(如 K-FAC)以及训练稳定性分析,能统一在一个几何框架下理解。
更有意思的是:多层感知机参数空间存在”奇异点”——某些参数配置处 Fisher 矩阵退化,导致梯度信息失真,训练会陷入”高原期”。自然梯度揭示了这些奇异性的几何本质,而非仅仅把它当作优化噪声处理。[6]
变分推断同样是信息几何的重要应用场景。当我们在一族近似分布里寻找最接近后验的那个,本质上是在统计流形上做优化。[8] 几何视角让我们理解:不同的近似族(高斯族、指数族……)对应不同形状的子流形,优化结果取决于这个子流形和后验分布的几何关系。
学习过程本身也可以被视为由数据、参数与模型映射共同诱导出的几何结构。[9] 从这个角度看,”学得好不好”不再是一个纯粹的数字问题,而是一个几何问题:模型映射是否和数据流形的曲率相匹配?
四、最优传输桥接:另一套概率几何语言
信息几何并非研究概率空间几何的唯一路径。近年来,最优传输(Optimal Transport, OT)理论也提供了一套强大的概率空间几何语言——而且两者正在互相靠近。[12]
🔑 Wasserstein 距离 vs Fisher-Rao 距离
最优传输定义了概率分布之间的 Wasserstein 距离——把一堆”质量”从一个分布搬运到另一个分布的最小代价。Fisher-Rao 距离则基于统计可分辨性。两者都是”概率分布空间上的距离”,但几何结构不同:
- Fisher-Rao:参数空间曲率,统计推断视角
- Wasserstein:质量搬运代价,样本空间结构视角
翻译成人话:Fisher-Rao 问的是”两个分布在统计上有多难区分”,Wasserstein 问的是”把一个分布的形状变成另一个形状要搬多远的土”。一个关注参数空间,一个关注样本空间。
2022 年的工作表明,伪黎曼几何可以在最优传输的框架里编码信息几何结构。[11] 换言之,两套语言之间有深层的数学对应——不是竞争关系,而是同一个底层真实结构的不同侧面。
🔬 两套几何语言的汇合
信息几何与最优传输的桥接意义在于:
- 信息几何擅长处理参数化模型族,对统计推断、学习算法更自然;
- 最优传输擅长处理无参数的分布比较,对生成模型、分布匹配更直接;
- 两者的几何结构在某些条件下可以互相转化,为”概率空间上的计算”提供了统一视野。[12]
此外,信息几何的框架也已经扩展到非欧结构。例如,双曲指数族(Poincaré 分布、双曲面分布)上的信息几何,可以和双曲空间嵌入、层级结构表示学习等现代应用相连接。[10]
五、复杂系统中的应用
信息几何不只是机器学习的工具箱。它在复杂系统、统计物理和演化理论中都有深刻的踪迹。
5.1 分岔点附近的几何
🌍 应用案例:信息几何与分岔理论
当一个动力系统接近分岔点时,系统的统计性质会发生剧烈变化——波动增大、相关性增长、恢复速度减慢。信息几何提供了一套协变(参数化无关)的方式来描述这些变化。[14]
翻译成人话:临近”临界转变”(比如生态崩溃、心脏骤停前的某些先兆)时,系统的概率分布会在统计流形上”加速运动”——Fisher-Rao 距离的变化率加快。这个几何信号可以作为早期预警指标。
5.2 统计物理的热力学度量
热力学系统的相变和结构转变,也在信息几何框架里留有印记。研究表明,Fisher-Widom 线(简单流体的结构过渡边界)可以用热力学度量几何精确定位。[15] 几何量——特别是曲率——编码了系统相行为和结构转变的信息。
📐 为什么曲率可以预测相变?
在统计物理中,系统的宏观状态对应参数化分布族(配分函数、热力学势)。当系统发生相变,参数空间的度量曲率会在相变点附近出现异常——类似于流形上的”奇点”。[15]
翻译成人话:相变是概率分布族在统计流形上剧烈弯折的信号。曲率爆炸的地方,就是系统宏观行为骤变的地方。几何探测到了物理。
5.3 演化与 Fisher 信息最大化
🌍 应用案例:自然选择最大化 Fisher 信息
Steven Frank 2009 年的工作给出了一个令人惊讶的命题:自然选择在某种意义上最大化了系统从环境中”获取可分辨结构”的能力,而 Fisher 信息正是这种能力的度量。[16]
翻译成人话:自然选择不只是”适应度最大化”——它也可以被看作一种几何优化过程,使得生物体关于环境参数的 Fisher 信息趋向最大。越”了解”环境的生物,在统计流形上的位置越精确,对适应性扰动越不敏感。
Fisher 信息还出现在量子力学的演化方程里:量子概率振幅的信息几何可以描述演化速度与约束,Fisher 信息的衰减刻画了量子态在信息几何意义上的”扩散”。[17]
六、跨领域联系
6.1 感知与记忆的几何
信息几何的触角延伸到了认知神经科学。人类记忆颜色时,不同颜色之间的感知距离并不均匀——这种不均匀正好符合 Fisher 信息度量的结构。[19]
🔬 记忆颜色的 Fisher 几何
对颜色记忆的实证分析发现,人类主观色彩空间的度量结构与 Fisher-Rao 度量高度吻合——感知区分越困难的颜色对(Fisher 信息低的方向),对应的感知距离越短。[19] 大脑似乎在”用信息几何表征颜色”。
眼动研究同样发现了信息几何的踪迹:眼球运动的统计规律,可以用信息几何框架来建模和解释。[20] 这暗示着:凡是涉及”感知—估计—决策”的系统,Fisher 几何往往自然浮现。
6.2 神经表征的统计流形
🌍 应用案例:视网膜表征流形
视网膜神经元的编码空间,可以用信息几何来分析其流形结构。[18] 神经系统对视觉刺激的表征,不是随机散布在高维空间里,而是形成具有特定曲率结构的低维流形——Fisher 信息刻画了这个流形的局部弯曲程度。
翻译成人话:大脑的神经表征有几何结构。信息几何给了我们测量这个结构的工具。
七、前沿:信息几何往哪走?
🚀 前沿方向 1:双曲信息几何
传统信息几何处理欧氏参数空间;新的工作把它扩展到双曲几何——Poincaré 分布、双曲面分布等在层级结构表示学习中有独特优势。[10] 与双曲空间嵌入的结合,可能在知识图谱、树状结构建模上带来突破。
🚀 前沿方向 2:信息几何 × 最优传输的统一框架
两套概率几何语言——Fisher-Rao 和 Wasserstein——的数学结构已经有了深度对应关系。[11][12] 统一框架的建立,将可能为生成模型、分布匹配、统计推断提供更强大的理论基础。
🚀 前沿方向 3:深度学习的几何可解释性
Fisher 信息矩阵用于理解深层网络参数空间的奇异性和训练动力学,是当前深度学习理论的活跃前沿。[6][7] 近似自然梯度方法(K-FAC 等)正在从理论走向工程实践。
🚀 前沿方向 4:复杂系统早期预警
利用统计流形曲率变化检测临界转变的方法,可能在气候系统、生态系统、心脏医学等领域提供新型早期预警信号。[14] 把抽象几何工具变成实用的预警仪表盘,是这个方向的终极目标。
- 信息几何把参数化概率分布族视为黎曼流形,Fisher 信息矩阵给出局部度量,这套语言统一了统计推断、机器学习优化与复杂系统建模。[1][3]
- Fisher-Rao 度量不是任意选择:它对参数化方式具有不变性,是统计模型上最自然的几何结构,且可能与更广泛的几何对象(如 Kähler 度量)深度相通。[2][4]
- 自然梯度 = 用 Fisher 矩阵的逆矫正普通梯度,使学习方向符合概率流形真实曲率,是信息几何在机器学习中最直接的落地。[5][7]
- 信息几何与最优传输正在从两条路向同一个目标靠近:为”概率空间上的计算”建立统一的几何语言。[11][12]
- 在复杂系统里,统计流形的曲率变化可以用于检测相变、分岔和临界转变,这是信息几何走出数学、走向应用的重要方向。[14][15]
- 就连自然选择也可以被解读为 Fisher 信息最大化过程——几何视角把统计学、物理学、生物学和机器学习串在了一根线上。[16]
📚 参考文献
- Nielsen F. An Elementary Introduction to Information Geometry. Entropy. 2020. https://doi.org/10.3390/e22101100
- Lê HV. Natural differentiable structures on statistical models and the Fisher metric. Information Geometry. 2022. https://arxiv.org/abs/2208.06539
- Vos P, et al. Geometry of Statistical Manifolds. Entropy. 2025. https://doi.org/10.3390/e27111110
- Gnandi E. Any Kähler metric is a Fisher information metric. arXiv preprint. 2024. https://arxiv.org/abs/2405.19020
- Amari S, et al. Adaptive method of realizing natural gradient learning for multilayer perceptrons. Neural Computation. 2000. https://doi.org/10.1162/089976600300015420
- Amari S, et al. Dynamics of Learning in MLP: Natural Gradient and Singularity Revisited. Neural Computation. 2018. https://doi.org/10.1162/neco_a_01029
- Amari S, et al. Fisher Information and Natural Gradient Learning of Random Deep Networks. arXiv preprint. 2018. https://arxiv.org/abs/1808.07172
- Frank P, et al. Geometric Variational Inference. Entropy. 2021. https://doi.org/10.3390/e23070853
- Puechmorel S, et al. Pullback Bundles and the Geometry of Learning. Entropy. 2023. https://doi.org/10.3390/e25101450
- Nielsen F, et al. Information measures and geometry of the hyperbolic exponential families of Poincaré and hyperboloid distributions. Information Geometry. 2022. https://arxiv.org/abs/2205.13984
- Wong T, et al. Pseudo-Riemannian geometry encodes information geometry in optimal transport. Information Geometry. 2022. https://doi.org/10.1007/s41884-021-00053-7
- Khan G, et al. When Optimal Transport Meets Information Geometry. Information Geometry. 2022. https://arxiv.org/abs/2206.14791
- Bernal-Casas D, et al. Intrinsic Information-Theoretic Models. Entropy. 2024. https://doi.org/10.3390/e26050370
- da Silva V, et al. Information geometry theory of bifurcations? A covariant formulation. Chaos. 2022. https://doi.org/10.1063/5.0069033
- Mausbach P, et al. Thermodynamic metric geometry and the Fisher-Widom line of simple fluids. Physical Review E. 2022. https://doi.org/10.1103/PhysRevE.106.034136
- Frank SA. Natural selection maximizes Fisher information. Journal of Evolutionary Biology. 2009. https://arxiv.org/abs/0901.3742
- Cafaro C, et al. Decrease of Fisher information and the information geometry of evolution equations for quantum mechanical probability amplitudes. Physical Review E. 2018. https://doi.org/10.1103/PhysRevE.97.042110
- Ding X, et al. Information Geometry of the Retinal Representation Manifold. bioRxiv. 2023. https://doi.org/10.1101/2023.05.17.541206
- da Fonseca M, et al. The subjective metric of remembered colors: A Fisher-information analysis of the geometry of human chromatic memory. PLoS ONE. 2019. https://doi.org/10.1371/journal.pone.0207992
- Lenz R, et al. Eye movements and information geometry. Journal of the Optical Society of America A. 2016. https://doi.org/10.1364/JOSAA.33.001598