大语言模型的涌现能力

🟢 实验验证 📅 2026年3月 ⏱ 阅读约12分钟

GPT-4 能解奥数压轴题，GPT-3 不行。GPT-3 能写代码，GPT-2 写出来的是乱码。每一代大语言模型的出现，都伴随着大量”这玩意儿突然会了！”的惊呼——仿佛某个夜晚，模型沉睡之后再醒来，就多了一项本领。

这就是 涌现能力（Emergent Abilities）：在小模型里不存在或可以忽略不计，但在更大模型上突然显著出现，而且无法从小模型的性能简单外推的那些能力。^[1]

问题是：这些能力真的是”凭空长出来”的吗？还是说，我们只是换了一种更聪明的方式去测量，或者更耐心地把潜伏在模型内部的能力”逼”了出来？

这篇文章从复杂系统的视角，梳理大语言模型涌现能力的证据与反驳。结论先说：现象是真实的，但”突然跳变”的形状，由系统和测量共同决定。

📑 本文目录

一、涌现能力的发现
二、缩放定律：为什么更大的模型更容易跨阈值
三、上下文学习：能力是”被调出来”的
四、思维链：让推理变得可见
五、工具使用与规划：系统边界决定能力边界
六、”海市蜃楼”争论：涌现是幻觉吗？
七、跨领域联系：复杂系统的视角
八、前沿：后训练时代的涌现

一、涌现能力的发现

2022 年，谷歌研究团队在一篇颇具雄心的论文里系统整理了这一现象。^[1] 他们把”涌现能力”定义得很精确：

🔑 涌现能力的定义

在小规模模型中几乎不存在（接近随机猜测水平），而在超过某个规模阈值后，性能显著且不连续地提升——无法通过小模型的结果拟合曲线来预测。

这个定义有两个关键点：不连续性（跳变而非线性增长）和不可预测性（无法从小模型外推）。这正是复杂系统里”相变”的基本特征：水在 99°C 还是液态，100°C 就沸腾了，液态水的性质再精确，也无法预测沸点之后的行为。

在这篇论文展示的数十个任务里，有一个案例特别具体：GPT-3 在一些经典类比推理任务上达到甚至超过了人类水平，表现出跨表面形式、迁移关系结构的能力——这一发现被 2023 年发表在《自然人类行为》上的研究进一步验证。^[4]

🔬 实验证据

Webb 等人（2023）将 GPT-3 放在经典类比推理任务（如 Raven’s Progressive Matrices 的文字变体）中测试。结果：模型在某些任务上匹敌大学本科生的平均水平，而此前所有专门训练的神经网络模型都未能做到这一点。^[4]

二、缩放定律：为什么更大的模型更容易跨阈值

要理解为什么”更大”有时候意味着”突然会了”，必须先理解缩放定律（Scaling Laws）。

2020 年，OpenAI 团队发现了一个惊人的规律：语言模型的损失（即预测误差）随模型参数量、数据量、算力呈幂律下降。^[6]

📐 缩放定律公式

L(N) ≈ (N_c / N)^α

翻译成人话：模型越大，平均每个词预测得越准，但提升速度是越来越慢的——你把模型翻10倍，误差只降一小段。这个关系在很宽的规模范围内都稳定成立，不会突然跳变。

其中 N 是模型参数量，N_c 和 α 是拟合常数。重要的是，底层损失是平滑变化的，不存在断崖式跳变。

但这里有个关键张力：底层损失是平滑的，任务性能却可能是离散跳变的。

为什么？因为很多任务有隐藏的阈值。考试卷子要求每道题全对才算过，模型把每个小步骤的准确率从 70% 提升到 90%，对应的整体通过率可以从接近 0% 跳到相当高——即使底层能力只是平稳增长。

2022 年的 Chinchilla 论文还揭示了另一个维度：参数量不是越大越好，关键是参数和训练数据要配平。^[7] 很多当时的大型模型其实是”参数过大、数据喂太少”——如果你按次优的训练方式去找能力跃迁点，得到的阈值会系统性偏移。

❌ 常见误区

“某个参数量级突然觉醒”——这个说法忽略了训练 token 的配比。Chinchilla 表明：在固定算力下，模型大小和训练数据量应当协同增长（大致 1:20 的参数-token 比）。^[7] 把训练不充分误认为能力阈值，是大量涌现故事的隐藏错误。

三、上下文学习：能力是”被调出来”的

如果说缩放定律解释了”地基”，那么上下文学习（In-Context Learning，ICL）则解释了”如何用好这栋楼”。

所谓上下文学习，是指在不修改模型参数的前提下，仅凭 prompt 中的示例，让模型”学会”新任务。这本身就是一种涌现：小模型根本不具备这种能力，大模型才行。

为什么会这样？2022 年 Xie 等人给出了一个理论解释：^[8]

💡 类比理解

想象模型在预训练时读了数以亿计的文章，每篇文章都有自己的”主题”（潜变量）。当模型读到足够多的具有长程一致性的文档后，它会学到：“这些句子都在聊同一件事”。

测试时，prompt 里的例子就像文章开头的几段——模型把它们识别为”在聊同一件事”的信号，然后推断这件事是什么，再按这个逻辑继续。这是隐式贝叶斯推断，不是死记硬背。^[8]

2023 年，另一篇论文走得更深：Dai 等人论证了上下文学习在数学结构上等价于一种隐式梯度下降——Transformer 的注意力机制在特定条件下，就像在前向推断里做了一次快速的参数更新。^[9]

📐 元优化视角

ICL ≈ GD(θ; D_ctx)

翻译成人话：上下文学习（ICL）在行为上约等于用上下文示例 D_ctx 对模型权重 θ 做了一次梯度下降更新——只不过这一切发生在前向传播里，完全不修改实际参数。模型像是在”脑子里”悄悄自我微调了一次。^[9]

这个机制解释意味着：所谓”涌现”，很多时候不是模型突然长出新能力，而是模型终于大到可以稳定地做元优化——把任何新任务快速转化为已知框架里的一个实例。

Zhou 等人（2022）进一步验证：通过精心设计的上下文示例，可以教会模型学会技能累积、技能组合，甚至把已有技能当工具调用。^[11] 换句话说，上下文学习可以把能力”组装”出来，而不仅仅是调出一个已有的静态能力。

四、思维链：让推理变得可见

2022 年，一篇论文改变了与大模型对话的方式：如果你给模型几个”一步一步想”的示例，它在算术、常识和符号推理上的表现就会大幅提升——但这个效果只在足够大的模型上才出现。^[2]

这就是思维链（Chain of Thought，CoT）提示。它的出现让”涌现”的讨论变得更复杂：

🌍 应用案例

同一个模型，同一道多步数学题：

直接问答：回答错误
加上”让我们一步一步来”：正确率显著提升^[3]

Kojima 等人（2022）甚至发现，只加一句零样本提示”Let’s think step by step”，模型就能在多类推理任务上取得显著进步，不需要任何精心准备的示范例子。^[3]

这引出一个根本问题：模型是”突然学会了推理”，还是推理能力一直在那里，只是需要合适的”接口”去激活？

思维链提示让模型的中间推理步骤变得可见、可检查，而不是一步跳到结论。这不只是展示推理的过程——它本身就改变了推理的质量。当推理链被写出来，模型的每一步都受到更紧的局部约束，错误更难累积传播。

2023 年，Lightman 等人的研究走得更系统：如果不只奖励最终答案，而是对每一个推理步骤单独给出监督信号，模型在复杂数学题上的表现会显著优于只看结果的训练方式。^[15]

🔬 过程监督 vs 结果监督

Lightman 等人比较了两种训练奖励模型的方式：
• 结果监督（ORM）：只看最终答案对不对
• 过程监督（PRM）：对每个推理步骤分别打分

在竞赛级数学题（MATH 数据集）上，过程监督显著优于结果监督。^[15] 这说明，”推理能力”不只依赖参数规模，还深度依赖监督信号的形状——训练过程本身在雕刻能力。

五、工具使用与规划：系统边界决定能力边界

讨论大模型的能力，很多人默认”能力 = 模型权重里的东西”。但有两篇论文彻底打破了这个假设。

Schick 等人（2023）展示了 Toolformer：语言模型可以通过少量自监督示范，学会何时调用外部 API（搜索引擎、计算器、翻译器等），传什么参数，以及如何把返回结果整合进自己的推理。^[12]

🌍 Toolformer：给模型配”外挂”

一个不会精确计算的语言模型，一旦学会在关键时刻调用计算器 API，就能处理它单靠自身参数绝对错误的多位数乘法。能力边界不再只由参数规模决定，而由“模型 + 工具”系统共同决定。^[12]

Yao 等人（2023）的 ReAct 把这个思路推进一步：将思维链推理与真实行动交织起来——模型不只生成推理痕迹，还在外部环境里执行动作（查维基百科、写代码、搜索商品），读取反馈，再继续推理。^[13]

Hao 等人（2023）的 RAP 更进一步，把语言模型同时用作”行动者”和”世界模型”，结合树搜索来探索推理路径。^[14]

📐 系统能力公式

能力(系统) = f(模型参数 + 工具 + 搜索机制 + 反馈循环)

翻译成人话：不要把”大模型的能力”和”大模型这个孤立软件的能力”混为一谈。很多让人惊叹的”涌现”，其实是因为研究者给模型配上了工具、搜索、环境反馈之后才出现的——是整个系统跨过了阈值，不是模型本身突然觉醒。^[13]^[14]

六、”海市蜃楼”争论：涌现是幻觉吗？

2023 年，斯坦福大学的 Schaeffer 等人发表了一篇论文，标题直接挑衅：《大语言模型的涌现能力是一种海市蜃楼吗？》^[16]

他们的核心论点：

❌ 涌现可能是测量幻觉

如果你用非线性或不连续的评测指标（比如”全对才算1分，差一步算0分”），平滑的底层性能改善就会被放大成悬崖式跳变。

换用连续指标（比如部分分、对数概率、字符级准确率）后，同样的模型在同样的任务上，性能随规模变化往往是平滑可预测的，没有突变。^[16]

用一个类比来说：如果你用”能不能一口气游过长江”来衡量游泳水平，那么随着训练，能力会从”完全不行”直接跳到”行”，看起来像涌现。但如果改用”1小时能游多少公里”来衡量，你会看到一条平滑的进步曲线，从来没有”突然跳变”。

🧪 思想实验

给你两种方式衡量”语言模型的多步推理能力”：

二元指标：最终答案完全正确得1分，否则0分
连续指标：每个推理步骤分别评分，取平均

同一模型，用指标1可能看到”100亿参数时突然会了”；用指标2可能看到从10亿参数起就一直在稳步进步。哪个更真实地反映了模型能力的变化？

这个批评非常有力，但也不能走向另一个极端——认为”涌现完全是幻觉”。Lu 等人（2023）的深入分析认为：很多被称为”涌现”的现象，是模型在合适提示和任务结构下调动已有表征的结果——这是”能力显化”而不是”能力无中生有”，但这两者之间的区别本来就值得认真辨析。^[10]

更稳妥的结论是：测量函数和任务阈值共同塑造了我们看到的”跳变形状”，但底层系统真的在变强——就是没有传说中那么戏剧性。

七、跨领域联系：复杂系统的视角

从复杂系统科学的视角来看，大语言模型的涌现能力既熟悉又陌生。

熟悉的部分：任何足够复杂的系统，在参数连续变化时都可能在某些可观测量上出现非线性跳变。物理学里的相变、生态学里的种群崩溃、经济学里的市场危机——都有这种特征。支持者会说，大模型跨越能力阈值是一种真正的相变，是系统整体复杂度超过临界点后的集体行为。

陌生的部分：传统相变理论里，我们通常知道序参数是什么（磁化强度、密度差……），知道临界指数，知道相变发生在哪里。大模型的”能力涌现”完全不透明——我们不知道是哪些权重、哪些回路、哪种内部结构的改变触发了表面上的能力跃迁。

💡 类比：水的沸腾 vs 模型的觉醒

水在 100°C 沸腾，这是相变。我们知道序参数（气液密度差）、临界温度、相图。

GPT-3 在某个规模”学会了类比推理”——这也许是相变，也许是测量阈值，也许是 prompt 触发了潜在电路。我们还没有大模型的”相图”，也没有它的”临界指数”。

这不是说”不是相变”，而是说：我们还没有好用的理论语言来描述它。

有一点可以确定：大语言模型的涌现现象，是当前复杂系统科学与机器学习理论的共同前沿。它需要两边的工具：一边需要统计物理的相变理论，另一边需要计算语言学的可解释性研究。

八、前沿：后训练时代的涌现

2025 年，一篇发表在《自然》上的论文悄悄改写了涌现的叙事。DeepSeek-R1 表明：很多”推理能力的突进”并不只来自预训练规模，而是来自训练后阶段的强化学习与奖励塑形。^[5]

🚀 后训练时代的新问题

如果某个能力在 RL 后训练阶段被显著放大，那么讨论它时必须区分两件事：

预训练尺度效应：更大模型、更多数据带来的能力积累
后训练策略效应：强化学习、奖励塑形、人类反馈带来的能力放大

把所有表现突破都归因于”自然涌现”，就像把运动员的冠军全归功于基因，忽视了赛前训练的作用。^[5]

这个新维度让涌现讨论变得更加多层次：

哪些能力来自预训练规模？（缩放定律的效应）
哪些来自 prompt 设计？（上下文学习、思维链的显化效应）
哪些来自后训练策略？（强化学习、过程监督的塑形效应）
哪些来自工具和环境？（系统边界扩展的效应）
哪些其实只是测量幻觉？（指标阈值效应）

这五个维度，不是非此即彼，而是同时共存的。真实的大模型能力，是这五股力量在特定任务上交织的结果。

🔑 两个关键区分

讨论 LLM 涌现时，有两对概念值得认真区分：

表观涌现（Apparent Emergence） vs 真实涌现（True Emergence）：前者可能只是指标阈值效应，后者要求系统内部结构发生了质变
能力存在 vs 能力显化：能力可能在小模型里就潜伏着，只是没有合适的接口调出来

🎯 关键要点

LLM 涌现能力的现象是真实的——更大的模型、更好的提示、更强的后训练，确实能让某些任务性能出现显著跃升^[1]
底层损失随规模平滑变化（幂律缩放），任务层面的”突变”往往来自任务本身的阈值结构和评测函数的非线性^[6]^[16]
上下文学习可以理解为隐式贝叶斯推断或隐式梯度下降——某些”涌现”其实是元优化机制终于稳定运作^[8]^[9]
思维链和过程监督揭示：推理能力可以被提示和监督信号系统性放大，不是只靠规模^[2]^[15]
工具使用和规划让系统边界扩展，能力边界不再只由模型参数决定^[12]^[13]
后训练强化学习是另一个独立的能力放大器，必须与预训练尺度效应区分讨论^[5]
更稳妥的结论：系统确实在变强，但”跳变的形状”由系统和测量共同决定

📚 参考文献

Wei J, Tay Y, Bommasani R, et al. Emergent Abilities of Large Language Models. TMLR / arXiv, 2022. arXiv:2206.07682
Wei J, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS, 2022/2023. arXiv:2201.11903
Kojima T, et al. Large Language Models are Zero-Shot Reasoners. NeurIPS, 2022. arXiv:2205.11916
Webb TW, Holyoak KJ, Lu H. Emergent analogical reasoning in large language models. Nature Human Behaviour, 2023. DOI:10.1038/s41562-023-01659-w
Guo D, et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature, 2025. DOI:10.1038/s41586-025-09422-z
Kaplan J, McCandlish S, et al. Scaling Laws for Neural Language Models. arXiv, 2020. arXiv:2001.08361
Hoffmann J, et al. Training Compute-Optimal Large Language Models (Chinchilla). arXiv, 2022. arXiv:2203.15556
Xie SM, et al. An Explanation of In-context Learning as Implicit Bayesian Inference. ICLR, 2022. arXiv:2111.02080
Dai D, et al. Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers. ACL Findings, 2023. arXiv:2212.10559
Lu S, et al. Are Emergent Abilities in Large Language Models just In-Context Learning? ACL, 2024. arXiv:2309.01809
Zhou H, Nova A, Larochelle H, Courville A, Neyshabur B, Sedghi H. Teaching Algorithmic Reasoning via In-context Learning. arXiv, 2022. arXiv:2211.09066
Schick T, et al. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023. arXiv:2302.04761
Yao S, et al. Synergizing Reasoning and Acting in Language Models (ReAct). ICLR, 2023. arXiv:2210.03629
Hao S, et al. Reasoning with Language Model is Planning with World Model (RAP). EMNLP, 2023. arXiv:2305.14992
Lightman H, Kosaraju V, Burda Y, Edwards H, Baker B, Lee T, Leike J, Schulman J, Sutskever I, Cobbe K. Let’s Verify Step by Step. arXiv, 2023. arXiv:2305.20050
Schaeffer R, Miranda B, Koyejo S. Are Emergent Abilities of Large Language Models a Mirage? arXiv, 2023. arXiv:2304.15004