跳至正文

大语言模型的涌现能力

🟢 实验验证 📅 2026年3月 ⏱ 阅读约12分钟

GPT-4 能解奥数压轴题,GPT-3 不行。GPT-3 能写代码,GPT-2 写出来的是乱码。每一代大语言模型的出现,都伴随着大量”这玩意儿突然会了!”的惊呼——仿佛某个夜晚,模型沉睡之后再醒来,就多了一项本领。

这就是 涌现能力(Emergent Abilities):在小模型里不存在或可以忽略不计,但在更大模型上突然显著出现,而且无法从小模型的性能简单外推的那些能力。[1]

问题是:这些能力真的是”凭空长出来”的吗?还是说,我们只是换了一种更聪明的方式去测量,或者更耐心地把潜伏在模型内部的能力”逼”了出来?

这篇文章从复杂系统的视角,梳理大语言模型涌现能力的证据与反驳。结论先说:现象是真实的,但”突然跳变”的形状,由系统和测量共同决定。

📑 本文目录

一、涌现能力的发现

2022 年,谷歌研究团队在一篇颇具雄心的论文里系统整理了这一现象。[1] 他们把”涌现能力”定义得很精确:

🔑 涌现能力的定义

在小规模模型中几乎不存在(接近随机猜测水平),而在超过某个规模阈值后,性能显著且不连续地提升——无法通过小模型的结果拟合曲线来预测。

这个定义有两个关键点:不连续性(跳变而非线性增长)和不可预测性(无法从小模型外推)。这正是复杂系统里”相变”的基本特征:水在 99°C 还是液态,100°C 就沸腾了,液态水的性质再精确,也无法预测沸点之后的行为。

在这篇论文展示的数十个任务里,有一个案例特别具体:GPT-3 在一些经典类比推理任务上达到甚至超过了人类水平,表现出跨表面形式、迁移关系结构的能力——这一发现被 2023 年发表在《自然人类行为》上的研究进一步验证。[4]

🔬 实验证据

Webb 等人(2023)将 GPT-3 放在经典类比推理任务(如 Raven’s Progressive Matrices 的文字变体)中测试。结果:模型在某些任务上匹敌大学本科生的平均水平,而此前所有专门训练的神经网络模型都未能做到这一点。[4]

二、缩放定律:为什么更大的模型更容易跨阈值

要理解为什么”更大”有时候意味着”突然会了”,必须先理解缩放定律(Scaling Laws)。

2020 年,OpenAI 团队发现了一个惊人的规律:语言模型的损失(即预测误差)随模型参数量、数据量、算力呈幂律下降[6]

📐 缩放定律公式
L(N) ≈ (Nc / N)α

翻译成人话:模型越大,平均每个词预测得越准,但提升速度是越来越慢的——你把模型翻10倍,误差只降一小段。这个关系在很宽的规模范围内都稳定成立,不会突然跳变。

其中 N 是模型参数量,Nc 和 α 是拟合常数。重要的是,底层损失是平滑变化的,不存在断崖式跳变。

但这里有个关键张力:底层损失是平滑的,任务性能却可能是离散跳变的。

为什么?因为很多任务有隐藏的阈值。考试卷子要求每道题全对才算过,模型把每个小步骤的准确率从 70% 提升到 90%,对应的整体通过率可以从接近 0% 跳到相当高——即使底层能力只是平稳增长。

2022 年的 Chinchilla 论文还揭示了另一个维度:参数量不是越大越好,关键是参数和训练数据要配平。[7] 很多当时的大型模型其实是”参数过大、数据喂太少”——如果你按次优的训练方式去找能力跃迁点,得到的阈值会系统性偏移。

❌ 常见误区

“某个参数量级突然觉醒”——这个说法忽略了训练 token 的配比。Chinchilla 表明:在固定算力下,模型大小和训练数据量应当协同增长(大致 1:20 的参数-token 比)。[7] 把训练不充分误认为能力阈值,是大量涌现故事的隐藏错误。

三、上下文学习:能力是”被调出来”的

如果说缩放定律解释了”地基”,那么上下文学习(In-Context Learning,ICL)则解释了”如何用好这栋楼”。

所谓上下文学习,是指在不修改模型参数的前提下,仅凭 prompt 中的示例,让模型”学会”新任务。这本身就是一种涌现:小模型根本不具备这种能力,大模型才行。

为什么会这样?2022 年 Xie 等人给出了一个理论解释:[8]

💡 类比理解

想象模型在预训练时读了数以亿计的文章,每篇文章都有自己的”主题”(潜变量)。当模型读到足够多的具有长程一致性的文档后,它会学到:“这些句子都在聊同一件事”

测试时,prompt 里的例子就像文章开头的几段——模型把它们识别为”在聊同一件事”的信号,然后推断这件事是什么,再按这个逻辑继续。这是隐式贝叶斯推断,不是死记硬背。[8]

2023 年,另一篇论文走得更深:Dai 等人论证了上下文学习在数学结构上等价于一种隐式梯度下降——Transformer 的注意力机制在特定条件下,就像在前向推断里做了一次快速的参数更新。[9]

📐 元优化视角
ICL ≈ GD(θ; Dctx)

翻译成人话:上下文学习(ICL)在行为上约等于用上下文示例 Dctx 对模型权重 θ 做了一次梯度下降更新——只不过这一切发生在前向传播里,完全不修改实际参数。模型像是在”脑子里”悄悄自我微调了一次。[9]

这个机制解释意味着:所谓”涌现”,很多时候不是模型突然长出新能力,而是模型终于大到可以稳定地做元优化——把任何新任务快速转化为已知框架里的一个实例。

Zhou 等人(2022)进一步验证:通过精心设计的上下文示例,可以教会模型学会技能累积、技能组合,甚至把已有技能当工具调用。[11] 换句话说,上下文学习可以把能力”组装”出来,而不仅仅是调出一个已有的静态能力。

四、思维链:让推理变得可见

2022 年,一篇论文改变了与大模型对话的方式:如果你给模型几个”一步一步想”的示例,它在算术、常识和符号推理上的表现就会大幅提升——但这个效果只在足够大的模型上才出现。[2]

这就是思维链(Chain of Thought,CoT)提示。它的出现让”涌现”的讨论变得更复杂:

🌍 应用案例

同一个模型,同一道多步数学题:

  • 直接问答:回答错误
  • 加上”让我们一步一步来”:正确率显著提升[3]

Kojima 等人(2022)甚至发现,只加一句零样本提示”Let’s think step by step”,模型就能在多类推理任务上取得显著进步,不需要任何精心准备的示范例子。[3]

这引出一个根本问题:模型是”突然学会了推理”,还是推理能力一直在那里,只是需要合适的”接口”去激活?

思维链提示让模型的中间推理步骤变得可见、可检查,而不是一步跳到结论。这不只是展示推理的过程——它本身就改变了推理的质量。当推理链被写出来,模型的每一步都受到更紧的局部约束,错误更难累积传播。

2023 年,Lightman 等人的研究走得更系统:如果不只奖励最终答案,而是对每一个推理步骤单独给出监督信号,模型在复杂数学题上的表现会显著优于只看结果的训练方式。[15]

🔬 过程监督 vs 结果监督

Lightman 等人比较了两种训练奖励模型的方式:
结果监督(ORM):只看最终答案对不对
过程监督(PRM):对每个推理步骤分别打分

在竞赛级数学题(MATH 数据集)上,过程监督显著优于结果监督。[15] 这说明,”推理能力”不只依赖参数规模,还深度依赖监督信号的形状——训练过程本身在雕刻能力。

五、工具使用与规划:系统边界决定能力边界

讨论大模型的能力,很多人默认”能力 = 模型权重里的东西”。但有两篇论文彻底打破了这个假设。

Schick 等人(2023)展示了 Toolformer:语言模型可以通过少量自监督示范,学会何时调用外部 API(搜索引擎、计算器、翻译器等),传什么参数,以及如何把返回结果整合进自己的推理。[12]

🌍 Toolformer:给模型配”外挂”

一个不会精确计算的语言模型,一旦学会在关键时刻调用计算器 API,就能处理它单靠自身参数绝对错误的多位数乘法。能力边界不再只由参数规模决定,而由“模型 + 工具”系统共同决定。[12]

Yao 等人(2023)的 ReAct 把这个思路推进一步:将思维链推理与真实行动交织起来——模型不只生成推理痕迹,还在外部环境里执行动作(查维基百科、写代码、搜索商品),读取反馈,再继续推理。[13]

Hao 等人(2023)的 RAP 更进一步,把语言模型同时用作”行动者”和”世界模型”,结合树搜索来探索推理路径。[14]

📐 系统能力公式
能力(系统) = f(模型参数 + 工具 + 搜索机制 + 反馈循环)

翻译成人话:不要把”大模型的能力”和”大模型这个孤立软件的能力”混为一谈。很多让人惊叹的”涌现”,其实是因为研究者给模型配上了工具、搜索、环境反馈之后才出现的——是整个系统跨过了阈值,不是模型本身突然觉醒。[13][14]

六、”海市蜃楼”争论:涌现是幻觉吗?

2023 年,斯坦福大学的 Schaeffer 等人发表了一篇论文,标题直接挑衅:《大语言模型的涌现能力是一种海市蜃楼吗?》[16]

他们的核心论点:

❌ 涌现可能是测量幻觉

如果你用非线性或不连续的评测指标(比如”全对才算1分,差一步算0分”),平滑的底层性能改善就会被放大成悬崖式跳变。

换用连续指标(比如部分分、对数概率、字符级准确率)后,同样的模型在同样的任务上,性能随规模变化往往是平滑可预测的,没有突变。[16]

用一个类比来说:如果你用”能不能一口气游过长江”来衡量游泳水平,那么随着训练,能力会从”完全不行”直接跳到”行”,看起来像涌现。但如果改用”1小时能游多少公里”来衡量,你会看到一条平滑的进步曲线,从来没有”突然跳变”。

🧪 思想实验

给你两种方式衡量”语言模型的多步推理能力”:

  1. 二元指标:最终答案完全正确得1分,否则0分
  2. 连续指标:每个推理步骤分别评分,取平均

同一模型,用指标1可能看到”100亿参数时突然会了”;用指标2可能看到从10亿参数起就一直在稳步进步。哪个更真实地反映了模型能力的变化?

这个批评非常有力,但也不能走向另一个极端——认为”涌现完全是幻觉”。Lu 等人(2023)的深入分析认为:很多被称为”涌现”的现象,是模型在合适提示和任务结构下调动已有表征的结果——这是”能力显化”而不是”能力无中生有”,但这两者之间的区别本来就值得认真辨析。[10]

更稳妥的结论是:测量函数和任务阈值共同塑造了我们看到的”跳变形状”,但底层系统真的在变强——就是没有传说中那么戏剧性。

七、跨领域联系:复杂系统的视角

从复杂系统科学的视角来看,大语言模型的涌现能力既熟悉又陌生。

熟悉的部分:任何足够复杂的系统,在参数连续变化时都可能在某些可观测量上出现非线性跳变。物理学里的相变、生态学里的种群崩溃、经济学里的市场危机——都有这种特征。支持者会说,大模型跨越能力阈值是一种真正的相变,是系统整体复杂度超过临界点后的集体行为。

陌生的部分:传统相变理论里,我们通常知道序参数是什么(磁化强度、密度差……),知道临界指数,知道相变发生在哪里。大模型的”能力涌现”完全不透明——我们不知道是哪些权重、哪些回路、哪种内部结构的改变触发了表面上的能力跃迁。

💡 类比:水的沸腾 vs 模型的觉醒

水在 100°C 沸腾,这是相变。我们知道序参数(气液密度差)、临界温度、相图。

GPT-3 在某个规模”学会了类比推理”——这也许是相变,也许是测量阈值,也许是 prompt 触发了潜在电路。我们还没有大模型的”相图”,也没有它的”临界指数”。

这不是说”不是相变”,而是说:我们还没有好用的理论语言来描述它

有一点可以确定:大语言模型的涌现现象,是当前复杂系统科学与机器学习理论的共同前沿。它需要两边的工具:一边需要统计物理的相变理论,另一边需要计算语言学的可解释性研究。

八、前沿:后训练时代的涌现

2025 年,一篇发表在《自然》上的论文悄悄改写了涌现的叙事。DeepSeek-R1 表明:很多”推理能力的突进”并不只来自预训练规模,而是来自训练后阶段的强化学习与奖励塑形。[5]

🚀 后训练时代的新问题

如果某个能力在 RL 后训练阶段被显著放大,那么讨论它时必须区分两件事:

  1. 预训练尺度效应:更大模型、更多数据带来的能力积累
  2. 后训练策略效应:强化学习、奖励塑形、人类反馈带来的能力放大

把所有表现突破都归因于”自然涌现”,就像把运动员的冠军全归功于基因,忽视了赛前训练的作用。[5]

这个新维度让涌现讨论变得更加多层次:

  • 哪些能力来自预训练规模?(缩放定律的效应)
  • 哪些来自 prompt 设计?(上下文学习、思维链的显化效应)
  • 哪些来自后训练策略?(强化学习、过程监督的塑形效应)
  • 哪些来自工具和环境?(系统边界扩展的效应)
  • 哪些其实只是测量幻觉?(指标阈值效应)

这五个维度,不是非此即彼,而是同时共存的。真实的大模型能力,是这五股力量在特定任务上交织的结果。

🔑 两个关键区分

讨论 LLM 涌现时,有两对概念值得认真区分:

  • 表观涌现(Apparent Emergence) vs 真实涌现(True Emergence):前者可能只是指标阈值效应,后者要求系统内部结构发生了质变
  • 能力存在 vs 能力显化:能力可能在小模型里就潜伏着,只是没有合适的接口调出来

🎯 关键要点
  • LLM 涌现能力的现象是真实的——更大的模型、更好的提示、更强的后训练,确实能让某些任务性能出现显著跃升[1]
  • 底层损失随规模平滑变化(幂律缩放),任务层面的”突变”往往来自任务本身的阈值结构和评测函数的非线性[6][16]
  • 上下文学习可以理解为隐式贝叶斯推断隐式梯度下降——某些”涌现”其实是元优化机制终于稳定运作[8][9]
  • 思维链和过程监督揭示:推理能力可以被提示和监督信号系统性放大,不是只靠规模[2][15]
  • 工具使用和规划让系统边界扩展,能力边界不再只由模型参数决定[12][13]
  • 后训练强化学习是另一个独立的能力放大器,必须与预训练尺度效应区分讨论[5]
  • 更稳妥的结论:系统确实在变强,但”跳变的形状”由系统和测量共同决定

📚 参考文献

  1. Wei J, Tay Y, Bommasani R, et al. Emergent Abilities of Large Language Models. TMLR / arXiv, 2022. arXiv:2206.07682
  2. Wei J, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS, 2022/2023. arXiv:2201.11903
  3. Kojima T, et al. Large Language Models are Zero-Shot Reasoners. NeurIPS, 2022. arXiv:2205.11916
  4. Webb TW, Holyoak KJ, Lu H. Emergent analogical reasoning in large language models. Nature Human Behaviour, 2023. DOI:10.1038/s41562-023-01659-w
  5. Guo D, et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature, 2025. DOI:10.1038/s41586-025-09422-z
  6. Kaplan J, McCandlish S, et al. Scaling Laws for Neural Language Models. arXiv, 2020. arXiv:2001.08361
  7. Hoffmann J, et al. Training Compute-Optimal Large Language Models (Chinchilla). arXiv, 2022. arXiv:2203.15556
  8. Xie SM, et al. An Explanation of In-context Learning as Implicit Bayesian Inference. ICLR, 2022. arXiv:2111.02080
  9. Dai D, et al. Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers. ACL Findings, 2023. arXiv:2212.10559
  10. Lu S, et al. Are Emergent Abilities in Large Language Models just In-Context Learning? ACL, 2024. arXiv:2309.01809
  11. Zhou H, Nova A, Larochelle H, Courville A, Neyshabur B, Sedghi H. Teaching Algorithmic Reasoning via In-context Learning. arXiv, 2022. arXiv:2211.09066
  12. Schick T, et al. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023. arXiv:2302.04761
  13. Yao S, et al. Synergizing Reasoning and Acting in Language Models (ReAct). ICLR, 2023. arXiv:2210.03629
  14. Hao S, et al. Reasoning with Language Model is Planning with World Model (RAP). EMNLP, 2023. arXiv:2305.14992
  15. Lightman H, Kosaraju V, Burda Y, Edwards H, Baker B, Lee T, Leike J, Schulman J, Sutskever I, Cobbe K. Let’s Verify Step by Step. arXiv, 2023. arXiv:2305.20050
  16. Schaeffer R, Miranda B, Koyejo S. Are Emergent Abilities of Large Language Models a Mirage? arXiv, 2023. arXiv:2304.15004