你有没有想过,地球上现存的7000多种语言,没有一种是被某个委员会”设计”出来的?没有规范文件,没有顶层架构,甚至没有一个共同的起点——它们都从人与人之间的局部互动里,一点一点”长”出来。
这听起来像魔法,但它其实是复杂系统最典型的行为:涌现(emergence)。一群遵循简单规则的个体,彼此交互,最终产生出任何单个个体都无法单独创造的宏观结构。蚁群建造宫殿,神经元产生意识,陌生人之间生长出共同的语言。
语言涌现研究的迷人之处在于:它横跨了认知科学、人工生命、复杂网络和语言演化,把”语言是什么”和”语言如何形成”这两个古老问题,用系统科学的语言重新翻译了一遍。
📑 本文目录
一、命名游戏:局部碰撞,全局约定
1995年,Luc Steels 做了一个思想实验:把一批没有共同语言的机器人放进同一个空间,让它们两两随机相遇,尝试为眼前的物体协商出一个名字。[1] 没有翻译,没有裁判,没有预设规则——只有局部互动。
结果令人惊讶:系统会自发收敛到一套所有个体都认可的词汇体系。没有任何”上帝视角”的干预,共识从局部混乱中涌现出来。
- 说话者(Speaker)随机选一个名字,传递给听话者(Hearer)
- 听话者如果词库里有这个名字,双方都删除其他备选名字 → 成功
- 听话者如果没有,将其加入自己词库 → 失败,继续学习
- 重复以上过程,直至群体收敛
这个极简模型的动力学被后来的研究系统分析过。[19] 在完全混合群体(homogeneous mixing)中,系统经历三个阶段:词汇爆炸期(个体相互发明新词)→ 竞争峰值期(备选词汇最多)→ 收敛期(某个词汇胜出并扩散)。
| 符号 | 含义 |
|---|---|
| Tconv | 系统达到全局约定所需时间 |
| N | 群体规模(个体数量) |
| α | 标度指数,与网络拓扑有关 |
翻译成人话:群体越大,达成共识的时间越长,但不是简单线性增长——具体涨多快,取决于人与人之间”怎么连”。拓扑结构比人数本身更能决定语言传播的命运。
没有人”发明”货币。贝壳、金属、纸币,都是从反复交换中逐渐成为共识的媒介。语言里的词汇约定,与货币的涌现在逻辑上高度同构——都是没有中央协调者的局部互动导致的全局秩序。
二、网络结构决定语言命运
现实世界的人不是随机相遇的。社交网络有小世界性质、有枢纽节点、有社群结构。这些拓扑特征会深刻改变语言约定的形成路径。
研究者将命名游戏搬到复杂网络上进行数值模拟。[11] 结果发现,在异质网络(如无标度网络)中,系统的记忆需求——即所有个体词库加总的总词汇量峰值——会显著降低,收敛速度也更快。相比之下,规则格子上的系统收敛极慢,且存在大量长寿命的方言”孤岛”。
进一步研究[12]对比了随机图、小世界网络和无标度网络下的约定动力学,发现不同拓扑下,系统走向的不仅仅是收敛速度不同——连最终约定的稳定性和鲁棒性也有根本差异。
如果社会中个体的”影响力”(被互动概率)本身服从幂律分布,会发生什么?[10] 模拟显示:高声望枢纽节点的词汇选择会被极度放大,成为全局约定的强力候选。这意味着,历史上那些占主导地位的语言或方言,可能并不总是”质量最优”的,而是”传播位置最优”的。
不是因为英语语法最简洁,也不是因为英语最表达力丰富——而是因为历史上某些枢纽节点(殖民、贸易、媒体、互联网)恰好是英语的。在复杂网络框架下,这不是文化优越性的问题,而是网络拓扑与历史偶然共同作用的结果。
三、迭代学习:语言结构从代际传递中涌现
命名游戏展示了词汇共识如何在单个群体内形成。但语言的结构——语法、组合规则、规整性——是从哪里来的?这需要引入时间维度:跨代传递。
迭代学习(Iterated Learning)框架的核心洞见:语言之所以变成”语言”,很大程度上是因为它需要被学习、被传递。[3] 学习过程本身就像一个滤波器,把难以习得的结构过滤掉,把可学习的结构保留并放大。
| 符号 | 含义 |
|---|---|
| h | 语言假设(学习者对语言结构的内部表示) |
| d | 观察到的语言数据(来自上一代的输出) |
| P(h) | 学习者的先验偏置(认知上更容易接受的结构) |
| P(d|h) | 给定假设 h,产生数据 d 的似然 |
翻译成人话:每一代学习者接收上一代的语言,然后用自己大脑里的”先验偏好”对它再加工,再传给下一代。经过足够多代之后,语言会向学习者的认知偏置靠拢——不是任何人刻意推动的,是传递过程本身的吸引子。[6]
这个框架预测:随着迭代次数增加,语言的频率分布会发生正则化(regularization)——原本概率相似的几个变体,会逐渐向某个优势变体集中。[7] 实验室里用人类被试复现了这一过程:人们学习一套人工语言然后教给下一个人,反复多轮后,语言变得更系统、更规整、更易学。[8]
Brighton 等人的计算模型[4]演示了一个关键过渡:当信号传递的”刺激空间”足够大、内存压力足够强时,系统会自发出现组合性(compositionality)——用有限的部件拼出无限的表达。这正是人类语言最核心的特征之一,它不需要预先设定,只需要迭代传递的压力。
更新的研究把人口结构也拉进来。[16] 当群体规模较小、交流圈高度重叠时,组合性的演化更快;人口结构本身是累积文化演化的”脚手架”。这一发现把语言涌现从抽象模型拉回了具体的史前社会场景。
按照迭代学习框架,语言中那些”例外规则”和”不规则变化”(比如英语的 go/went)不是语言设计的失败,而是历史上高频词汇在传递中抵抗正则化压力的痕迹。使用频率越高的词,越不容易被”更规整的形式”所替代——因为用得太熟了,学习压力反而小。[14]
四、Zipf 定律:语言是一台极度偷懒的机器
如果把一门语言里所有词汇按使用频率排序,会发现一个几乎普遍成立的规律:排名第 k 的词,出现频率大约是最高频词的 1/k。这就是 Zipf 定律——语言的频率分布服从幂律。
| 符号 | 含义 |
|---|---|
| f(k) | 排名第 k 的词的使用频率 |
| k | 频率排名(1 = 最常用) |
| α | 幂律指数,多数自然语言中约为 1 |
翻译成人话:在任意一本书里,”the””的””是”这类词出现次数,大约是第二常见词的两倍、第三常见词的三倍……以此类推,形成一条平滑的幂律曲线。这不是某种文化偶然,而是几乎所有人类语言的共同特征。
为什么幂律会出现?一个被广泛讨论的解释是:Zipf 分布可能反映了说话者努力(speaker effort)与听话者努力(hearer effort)之间的某种平衡——简短的词用来表示高频概念,节省说话成本;信息量大的词可以较长,但不会被高频使用,节省听话者的解析成本。不过,这只是多种解释框架之一,并非定论。
语音系统也不例外。跨语言研究[15]对多种语言的元音系统进行结构分析,发现元音库存的变异性同样遵循幂律组织——语音层面的”语言建筑”和词汇层面的统计分布,来自同一个复杂系统逻辑。
迭代学习对 Zipf 分布也有贡献。Reali 等人[7]的研究表明,学习者的归纳偏置经过反复放大后,可以从初始较均匀的频率分布中推导出接近 Zipf 的幂律分布。换句话说,Zipf 定律可能不只是语言使用的结果,也是代际学习的必然产物。
五、组合性与句法:记忆约束推出的最优解
人类语言最迷人的特征之一:用有限的词,说出无限的句子。这种组合性(compositionality)不是天上掉下来的,也不完全是基因写死的——有证据显示,记忆约束本身就能推导出它。
Cornish 等人[13]设计了一个实验:让人类被试学习和传递人工创建的序列信号系统,在迭代中引入记忆压力(序列变长变复杂)。结果:几轮迭代之后,系统自发演化出可复用的子结构——人们开始用”模块化拼接”来应对记忆限制。
想象你必须记住 100 个不相关符号串,然后教给下一个人。你会怎么做?几乎所有人都会开始”寻找规律”——把重复出现的片段归类,用更少的规则描述更多的符号。这正是组合性的认知根源:它是记忆面对信息爆炸时的最优应对策略。
具身约束(embodiment)也在塑造词汇系统。[2] 身体的感知能力和行动限制不是语言习得之后才出现的背景因素,而是从一开始就介入词汇系统的演化——语言涌现不在真空里,而是在有身体、有环境的主体之间。
类似地,语音系统的自组织[5]揭示了另一层约束:人类发音器官的物理限制塑造了可能的音素空间,但在这个空间里,哪些音素会成为一门语言的”常驻居民”,仍然是群体互动动力学的产物。音类(discrete phonetic categories)不是先天刻在大脑里的,而可能是在声学空间里的自组织吸引子。
生成语法传统认为,语言的核心结构来自人类特有的”语言习得装置”(LAD),是生物演化的产物。迭代学习框架并不完全否认这一点,但它补充了另一面:语言结构可以在文化传递中自发涌现,即使不假设专用的语言器官。[8] 两种解释可能都是对的,但问题是各占多少比例——这仍是开放问题。
六、AI 语言涌现:一个活的实验室
复杂系统研究有个长期困境:真实语言演化以千年为尺度,无法直接实验。但现代 AI 改变了这个局面。
多智能体深度学习系统正成为语言涌现研究的新实验场。[20] 研究者让多个神经网络代理在特定任务(如协同导航、描述物体)中自由交流,观察它们自发发展出的通信协议。这些”涌现语言”往往呈现出令人惊讶的结构:符合 Zipf 分布的词频、部分组合性、甚至类似语法的递归结构。
贝叶斯命名游戏模型[18]把认知学习机制更深度地整合进社会动力学——代理不再是简单的规则追随者,而是持续根据观测数据更新自己对词汇分布的信念。这个框架让 AI 系统的语言习得行为更接近真实的人类学习者。
GPT 和 Claude 这样的大模型,是在单个系统内用海量数据训练出来的,不是多代际传递的产物。但它们表现出的语言能力——尤其是跨域泛化和少样本学习——是否也可以用涌现框架的某些思路来理解?多智能体深度学习的语言涌现研究[20]为此提供了初步的分析工具,但大模型与经典涌现框架之间的关系仍是开放问题。
如果语言涌现机制告诉我们,语言结构是认知偏置 + 传播压力 + 世界结构共同作用的产物,那么设计更好的语言模型就不只是”喂更多数据”的问题——我们可能需要在训练范式中嵌入类似”迭代传递”和”社会协商”的机制。这是从复杂系统研究反哺 AI 设计的潜在路径。
七、边界:什么是涌现解释不了的?
语言涌现研究成果令人振奋,但也需要保持边界意识。
世界结构对语言的约束[9]提醒我们:语言不只是学习偏置的映射,也不只是社会动力学的产物——它还必须和它所描述的世界”对齐”。一门不能有效描述现实的语言,会在使用压力下被淘汰。这意味着,语言演化有多个层次的选择压力在同时运作。
模仿动力学[17]的研究揭示了另一个复杂性:局部互动不总是收敛。在某些条件下,系统会停留在多稳态(方言并存)甚至混沌的动力学区域。这与现实语言的多样性是一致的——7000种语言中,从来没有全球大一统的过程,局部稳定和全球多样性是同一系统的两面。
- 可以解释:词汇共识形成、频率分布幂律、组合性起源、规整化趋势
- 仍有争议:人类语言特有的递归性是否纯靠文化涌现
- 目前无法解释:语言的语义内容(”为什么这个词指那个概念”的任意性起点)
- 需要多层解释:语言多样性(为什么是7000种而不是1种或7000万种)
Smith 等人[14]指出,语言变异不是系统失灵的信号,而是语言处于学习、使用和传播持续耦合的动态过程中的自然状态。语言不是一个收敛后就冻结的系统,而是一个永远在滚动演化的开放复杂系统。
从这个角度看,”语言的涌现”不是一个已经完成的历史事件,而是此刻还在发生的过程——每一次对话,每一代儿童学语言,每一个新词进入流行,都是涌现机制在实时运行。
- 语言约定可以通过命名游戏式的局部互动自发涌现,不需要中央设计者
- 社交网络的拓扑结构(小世界性、枢纽节点)深刻影响语言共识的速度和稳定性
- 迭代学习框架表明:语言结构来自跨代传递中学习偏置的持续放大,组合性和规整性是文化演化的产物
- Zipf 幂律几乎是普遍的语言统计规律,可能来自说话者与听话者之间的成本博弈,也可能是代际学习的必然结果
- 记忆约束本身可以推导出组合性——这是语言最核心的特征之一
- 多智能体 AI 正成为语言涌现研究的新实验场,语言涌现研究正在反哺 AI 设计思路
- 涌现框架有边界:语言仍是认知偏置、传播压力、世界结构和网络拓扑多因素共同作用的结果
📚 参考文献
- Steels L et al. A self-organizing spatial vocabulary. Artificial Life, 1995. DOI: 10.1162/artl.1995.2.3.319
- Zuidema W et al. Evolution of an optimal lexicon under constraints from embodiment. Artificial Life, 2003. DOI: 10.1162/106454603322694834
- Smith K et al. Iterated learning: a framework for the emergence of language. Artificial Life, 2003. DOI: 10.1162/106454603322694825
- Brighton H et al. Compositional syntax from cultural transmission. Artificial Life, 2002. DOI: 10.1162/106454602753694756
- Oudeyer P et al. The self-organization of speech sounds. Journal of Theoretical Biology, 2005. DOI: 10.1016/j.jtbi.2004.10.025
- Griffiths T et al. Language evolution by iterated learning with bayesian agents. Cognitive Science, 2007. DOI: 10.1080/15326900701326576
- Reali F et al. The evolution of frequency distributions: relating regularization to inductive biases through iterated learning. Cognition, 2009. DOI: 10.1016/j.cognition.2009.02.012
- Kirby S et al. Iterated learning and the evolution of language. Current Opinion in Neurobiology, 2014. DOI: 10.1016/j.conb.2014.07.014
- Perfors A et al. Language evolution can be shaped by the structure of the world. Cognitive Science, 2014. DOI: 10.1111/cogs.12102
- Gong T et al. Exploring the effect of power law social popularity on language evolution. Artificial Life, 2014. DOI: 10.1162/ARTL_a_00138
- Dall’Asta L et al. Nonequilibrium dynamics of language games on complex networks. Physical Review E, 2006. DOI: 10.1103/PhysRevE.74.036105
- Barrat A et al. Agreement dynamics on interaction networks with diverse topologies. Chaos, 2007. DOI: 10.1063/1.2734403
- Cornish H et al. Sequence Memory Constraints Give Rise to Language-Like Structure through Iterated Learning. PLoS One, 2017. DOI: 10.1371/journal.pone.0168532
- Smith K et al. Language learning, language use and the evolution of linguistic variation. Philosophical Transactions of the Royal Society B, 2017. DOI: 10.1098/rstb.2016.0051
- Zhang M et al. Structural Variability Shows Power-Law Based Organization of Vowel Systems. Frontiers in Psychology, 2022. DOI: 10.3389/fpsyg.2022.801908
- Kirby S et al. Cumulative cultural evolution, population structure and the origin of combinatoriality in human language. Philosophical Transactions of the Royal Society B, 2022. DOI: 10.1098/rstb.2020.0319
- Bilancini E et al. Pairwise interact-and-imitate dynamics. Scientific Reports, 2021. DOI: 10.1038/s41598-021-92512-5
- Marchetti G, Patriarca M, Heinsalu E. A Bayesian Approach to the Naming Game Model. Frontiers in Physics, 2020. DOI: 10.3389/fphy.2020.00010 / arXiv: 1911.13012
- Baronchelli A, Loreto V, Steels L. In-depth analysis of the Naming Game dynamics: the homogeneous mixing case. International Journal of Modern Physics C, 2008. arXiv: 0803.0398
- Rita M et al. Language Evolution with Deep Learning. arXiv cs.CL, 2024. arXiv: 2403.11958