GPT-4 能解奥数压轴题,GPT-3 不行。GPT-3 能写代码,GPT-2 写出来的是乱码。每一代大语言模型的出现,都伴随着大量”这玩意儿突然会了!”的惊呼——仿佛某个夜晚,模型沉睡之后再醒来,就多了一项本领。
这就是 涌现能力(Emergent Abilities):在小模型里不存在或可以忽略不计,但在更大模型上突然显著出现,而且无法从小模型的性能简单外推的那些能力。[1]
问题是:这些能力真的是”凭空长出来”的吗?还是说,我们只是换了一种更聪明的方式去测量,或者更耐心地把潜伏在模型内部的能力”逼”了出来?
这篇文章从复杂系统的视角,梳理大语言模型涌现能力的证据与反驳。结论先说:现象是真实的,但”突然跳变”的形状,由系统和测量共同决定。
📑 本文目录
一、涌现能力的发现
2022 年,谷歌研究团队在一篇颇具雄心的论文里系统整理了这一现象。[1] 他们把”涌现能力”定义得很精确:
在小规模模型中几乎不存在(接近随机猜测水平),而在超过某个规模阈值后,性能显著且不连续地提升——无法通过小模型的结果拟合曲线来预测。
这个定义有两个关键点:不连续性(跳变而非线性增长)和不可预测性(无法从小模型外推)。这正是复杂系统里”相变”的基本特征:水在 99°C 还是液态,100°C 就沸腾了,液态水的性质再精确,也无法预测沸点之后的行为。
在这篇论文展示的数十个任务里,有一个案例特别具体:GPT-3 在一些经典类比推理任务上达到甚至超过了人类水平,表现出跨表面形式、迁移关系结构的能力——这一发现被 2023 年发表在《自然人类行为》上的研究进一步验证。[4]
Webb 等人(2023)将 GPT-3 放在经典类比推理任务(如 Raven’s Progressive Matrices 的文字变体)中测试。结果:模型在某些任务上匹敌大学本科生的平均水平,而此前所有专门训练的神经网络模型都未能做到这一点。[4]
二、缩放定律:为什么更大的模型更容易跨阈值
要理解为什么”更大”有时候意味着”突然会了”,必须先理解缩放定律(Scaling Laws)。
2020 年,OpenAI 团队发现了一个惊人的规律:语言模型的损失(即预测误差)随模型参数量、数据量、算力呈幂律下降。[6]
翻译成人话:模型越大,平均每个词预测得越准,但提升速度是越来越慢的——你把模型翻10倍,误差只降一小段。这个关系在很宽的规模范围内都稳定成立,不会突然跳变。
其中 N 是模型参数量,Nc 和 α 是拟合常数。重要的是,底层损失是平滑变化的,不存在断崖式跳变。
但这里有个关键张力:底层损失是平滑的,任务性能却可能是离散跳变的。
为什么?因为很多任务有隐藏的阈值。考试卷子要求每道题全对才算过,模型把每个小步骤的准确率从 70% 提升到 90%,对应的整体通过率可以从接近 0% 跳到相当高——即使底层能力只是平稳增长。
2022 年的 Chinchilla 论文还揭示了另一个维度:参数量不是越大越好,关键是参数和训练数据要配平。[7] 很多当时的大型模型其实是”参数过大、数据喂太少”——如果你按次优的训练方式去找能力跃迁点,得到的阈值会系统性偏移。
“某个参数量级突然觉醒”——这个说法忽略了训练 token 的配比。Chinchilla 表明:在固定算力下,模型大小和训练数据量应当协同增长(大致 1:20 的参数-token 比)。[7] 把训练不充分误认为能力阈值,是大量涌现故事的隐藏错误。
三、上下文学习:能力是”被调出来”的
如果说缩放定律解释了”地基”,那么上下文学习(In-Context Learning,ICL)则解释了”如何用好这栋楼”。
所谓上下文学习,是指在不修改模型参数的前提下,仅凭 prompt 中的示例,让模型”学会”新任务。这本身就是一种涌现:小模型根本不具备这种能力,大模型才行。
为什么会这样?2022 年 Xie 等人给出了一个理论解释:[8]
想象模型在预训练时读了数以亿计的文章,每篇文章都有自己的”主题”(潜变量)。当模型读到足够多的具有长程一致性的文档后,它会学到:“这些句子都在聊同一件事”。
测试时,prompt 里的例子就像文章开头的几段——模型把它们识别为”在聊同一件事”的信号,然后推断这件事是什么,再按这个逻辑继续。这是隐式贝叶斯推断,不是死记硬背。[8]
2023 年,另一篇论文走得更深:Dai 等人论证了上下文学习在数学结构上等价于一种隐式梯度下降——Transformer 的注意力机制在特定条件下,就像在前向推断里做了一次快速的参数更新。[9]
翻译成人话:上下文学习(ICL)在行为上约等于用上下文示例 Dctx 对模型权重 θ 做了一次梯度下降更新——只不过这一切发生在前向传播里,完全不修改实际参数。模型像是在”脑子里”悄悄自我微调了一次。[9]
这个机制解释意味着:所谓”涌现”,很多时候不是模型突然长出新能力,而是模型终于大到可以稳定地做元优化——把任何新任务快速转化为已知框架里的一个实例。
Zhou 等人(2022)进一步验证:通过精心设计的上下文示例,可以教会模型学会技能累积、技能组合,甚至把已有技能当工具调用。[11] 换句话说,上下文学习可以把能力”组装”出来,而不仅仅是调出一个已有的静态能力。
四、思维链:让推理变得可见
2022 年,一篇论文改变了与大模型对话的方式:如果你给模型几个”一步一步想”的示例,它在算术、常识和符号推理上的表现就会大幅提升——但这个效果只在足够大的模型上才出现。[2]
这就是思维链(Chain of Thought,CoT)提示。它的出现让”涌现”的讨论变得更复杂:
同一个模型,同一道多步数学题:
- 直接问答:回答错误
- 加上”让我们一步一步来”:正确率显著提升[3]
Kojima 等人(2022)甚至发现,只加一句零样本提示”Let’s think step by step”,模型就能在多类推理任务上取得显著进步,不需要任何精心准备的示范例子。[3]
这引出一个根本问题:模型是”突然学会了推理”,还是推理能力一直在那里,只是需要合适的”接口”去激活?
思维链提示让模型的中间推理步骤变得可见、可检查,而不是一步跳到结论。这不只是展示推理的过程——它本身就改变了推理的质量。当推理链被写出来,模型的每一步都受到更紧的局部约束,错误更难累积传播。
2023 年,Lightman 等人的研究走得更系统:如果不只奖励最终答案,而是对每一个推理步骤单独给出监督信号,模型在复杂数学题上的表现会显著优于只看结果的训练方式。[15]
Lightman 等人比较了两种训练奖励模型的方式:
• 结果监督(ORM):只看最终答案对不对
• 过程监督(PRM):对每个推理步骤分别打分
在竞赛级数学题(MATH 数据集)上,过程监督显著优于结果监督。[15] 这说明,”推理能力”不只依赖参数规模,还深度依赖监督信号的形状——训练过程本身在雕刻能力。
五、工具使用与规划:系统边界决定能力边界
讨论大模型的能力,很多人默认”能力 = 模型权重里的东西”。但有两篇论文彻底打破了这个假设。
Schick 等人(2023)展示了 Toolformer:语言模型可以通过少量自监督示范,学会何时调用外部 API(搜索引擎、计算器、翻译器等),传什么参数,以及如何把返回结果整合进自己的推理。[12]
一个不会精确计算的语言模型,一旦学会在关键时刻调用计算器 API,就能处理它单靠自身参数绝对错误的多位数乘法。能力边界不再只由参数规模决定,而由“模型 + 工具”系统共同决定。[12]
Yao 等人(2023)的 ReAct 把这个思路推进一步:将思维链推理与真实行动交织起来——模型不只生成推理痕迹,还在外部环境里执行动作(查维基百科、写代码、搜索商品),读取反馈,再继续推理。[13]
Hao 等人(2023)的 RAP 更进一步,把语言模型同时用作”行动者”和”世界模型”,结合树搜索来探索推理路径。[14]
翻译成人话:不要把”大模型的能力”和”大模型这个孤立软件的能力”混为一谈。很多让人惊叹的”涌现”,其实是因为研究者给模型配上了工具、搜索、环境反馈之后才出现的——是整个系统跨过了阈值,不是模型本身突然觉醒。[13][14]
六、”海市蜃楼”争论:涌现是幻觉吗?
2023 年,斯坦福大学的 Schaeffer 等人发表了一篇论文,标题直接挑衅:《大语言模型的涌现能力是一种海市蜃楼吗?》[16]
他们的核心论点:
如果你用非线性或不连续的评测指标(比如”全对才算1分,差一步算0分”),平滑的底层性能改善就会被放大成悬崖式跳变。
换用连续指标(比如部分分、对数概率、字符级准确率)后,同样的模型在同样的任务上,性能随规模变化往往是平滑可预测的,没有突变。[16]
用一个类比来说:如果你用”能不能一口气游过长江”来衡量游泳水平,那么随着训练,能力会从”完全不行”直接跳到”行”,看起来像涌现。但如果改用”1小时能游多少公里”来衡量,你会看到一条平滑的进步曲线,从来没有”突然跳变”。
给你两种方式衡量”语言模型的多步推理能力”:
- 二元指标:最终答案完全正确得1分,否则0分
- 连续指标:每个推理步骤分别评分,取平均
同一模型,用指标1可能看到”100亿参数时突然会了”;用指标2可能看到从10亿参数起就一直在稳步进步。哪个更真实地反映了模型能力的变化?
这个批评非常有力,但也不能走向另一个极端——认为”涌现完全是幻觉”。Lu 等人(2023)的深入分析认为:很多被称为”涌现”的现象,是模型在合适提示和任务结构下调动已有表征的结果——这是”能力显化”而不是”能力无中生有”,但这两者之间的区别本来就值得认真辨析。[10]
更稳妥的结论是:测量函数和任务阈值共同塑造了我们看到的”跳变形状”,但底层系统真的在变强——就是没有传说中那么戏剧性。
七、跨领域联系:复杂系统的视角
从复杂系统科学的视角来看,大语言模型的涌现能力既熟悉又陌生。
熟悉的部分:任何足够复杂的系统,在参数连续变化时都可能在某些可观测量上出现非线性跳变。物理学里的相变、生态学里的种群崩溃、经济学里的市场危机——都有这种特征。支持者会说,大模型跨越能力阈值是一种真正的相变,是系统整体复杂度超过临界点后的集体行为。
陌生的部分:传统相变理论里,我们通常知道序参数是什么(磁化强度、密度差……),知道临界指数,知道相变发生在哪里。大模型的”能力涌现”完全不透明——我们不知道是哪些权重、哪些回路、哪种内部结构的改变触发了表面上的能力跃迁。
水在 100°C 沸腾,这是相变。我们知道序参数(气液密度差)、临界温度、相图。
GPT-3 在某个规模”学会了类比推理”——这也许是相变,也许是测量阈值,也许是 prompt 触发了潜在电路。我们还没有大模型的”相图”,也没有它的”临界指数”。
这不是说”不是相变”,而是说:我们还没有好用的理论语言来描述它。
有一点可以确定:大语言模型的涌现现象,是当前复杂系统科学与机器学习理论的共同前沿。它需要两边的工具:一边需要统计物理的相变理论,另一边需要计算语言学的可解释性研究。
八、前沿:后训练时代的涌现
2025 年,一篇发表在《自然》上的论文悄悄改写了涌现的叙事。DeepSeek-R1 表明:很多”推理能力的突进”并不只来自预训练规模,而是来自训练后阶段的强化学习与奖励塑形。[5]
如果某个能力在 RL 后训练阶段被显著放大,那么讨论它时必须区分两件事:
- 预训练尺度效应:更大模型、更多数据带来的能力积累
- 后训练策略效应:强化学习、奖励塑形、人类反馈带来的能力放大
把所有表现突破都归因于”自然涌现”,就像把运动员的冠军全归功于基因,忽视了赛前训练的作用。[5]
这个新维度让涌现讨论变得更加多层次:
- 哪些能力来自预训练规模?(缩放定律的效应)
- 哪些来自 prompt 设计?(上下文学习、思维链的显化效应)
- 哪些来自后训练策略?(强化学习、过程监督的塑形效应)
- 哪些来自工具和环境?(系统边界扩展的效应)
- 哪些其实只是测量幻觉?(指标阈值效应)
这五个维度,不是非此即彼,而是同时共存的。真实的大模型能力,是这五股力量在特定任务上交织的结果。
讨论 LLM 涌现时,有两对概念值得认真区分:
- 表观涌现(Apparent Emergence) vs 真实涌现(True Emergence):前者可能只是指标阈值效应,后者要求系统内部结构发生了质变
- 能力存在 vs 能力显化:能力可能在小模型里就潜伏着,只是没有合适的接口调出来
- LLM 涌现能力的现象是真实的——更大的模型、更好的提示、更强的后训练,确实能让某些任务性能出现显著跃升[1]
- 底层损失随规模平滑变化(幂律缩放),任务层面的”突变”往往来自任务本身的阈值结构和评测函数的非线性[6][16]
- 上下文学习可以理解为隐式贝叶斯推断或隐式梯度下降——某些”涌现”其实是元优化机制终于稳定运作[8][9]
- 思维链和过程监督揭示:推理能力可以被提示和监督信号系统性放大,不是只靠规模[2][15]
- 工具使用和规划让系统边界扩展,能力边界不再只由模型参数决定[12][13]
- 后训练强化学习是另一个独立的能力放大器,必须与预训练尺度效应区分讨论[5]
- 更稳妥的结论:系统确实在变强,但”跳变的形状”由系统和测量共同决定
📚 参考文献
- Wei J, Tay Y, Bommasani R, et al. Emergent Abilities of Large Language Models. TMLR / arXiv, 2022. arXiv:2206.07682
- Wei J, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS, 2022/2023. arXiv:2201.11903
- Kojima T, et al. Large Language Models are Zero-Shot Reasoners. NeurIPS, 2022. arXiv:2205.11916
- Webb TW, Holyoak KJ, Lu H. Emergent analogical reasoning in large language models. Nature Human Behaviour, 2023. DOI:10.1038/s41562-023-01659-w
- Guo D, et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature, 2025. DOI:10.1038/s41586-025-09422-z
- Kaplan J, McCandlish S, et al. Scaling Laws for Neural Language Models. arXiv, 2020. arXiv:2001.08361
- Hoffmann J, et al. Training Compute-Optimal Large Language Models (Chinchilla). arXiv, 2022. arXiv:2203.15556
- Xie SM, et al. An Explanation of In-context Learning as Implicit Bayesian Inference. ICLR, 2022. arXiv:2111.02080
- Dai D, et al. Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers. ACL Findings, 2023. arXiv:2212.10559
- Lu S, et al. Are Emergent Abilities in Large Language Models just In-Context Learning? ACL, 2024. arXiv:2309.01809
- Zhou H, Nova A, Larochelle H, Courville A, Neyshabur B, Sedghi H. Teaching Algorithmic Reasoning via In-context Learning. arXiv, 2022. arXiv:2211.09066
- Schick T, et al. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023. arXiv:2302.04761
- Yao S, et al. Synergizing Reasoning and Acting in Language Models (ReAct). ICLR, 2023. arXiv:2210.03629
- Hao S, et al. Reasoning with Language Model is Planning with World Model (RAP). EMNLP, 2023. arXiv:2305.14992
- Lightman H, Kosaraju V, Burda Y, Edwards H, Baker B, Lee T, Leike J, Schulman J, Sutskever I, Cobbe K. Let’s Verify Step by Step. arXiv, 2023. arXiv:2305.20050
- Schaeffer R, Miranda B, Koyejo S. Are Emergent Abilities of Large Language Models a Mirage? arXiv, 2023. arXiv:2304.15004