音乐中的涌现与AI作曲

⚪ 概念探索 📅 2026年3月 ⏱ 阅读约12分钟

一段旋律，由几十个音符构成。如果你把这些音符随机重排，你得到的是噪声，不是音乐。但如果只是顺序稍作调整，整首曲子的气质就会面目全非。音乐中有某种东西，不属于任何一个音符，却依赖所有音符才能存在——这就是涌现。复杂系统科学告诉我们：当局部遵守简单规则，并在相互作用中形成新的层级结构时，涌现就发生了。在音乐这个领域，涌现无处不在：从一首曲子的分形时间结构，到爵士乐队集体即兴时自发成形的秩序，再到AI作曲系统面对”写出整首曲子”时遭遇的系统性困难。这篇文章的核心问题是：音乐的美感从何而来？AI为什么很难真正”作曲”？

📑 本文目录

一、1/f噪声：音乐的分形骨架
二、集体即兴：秩序从互动中涌现
三、Agent-based模型：计算机里造音调
四、AI作曲：会写句子，但写不好故事
五、长程依赖：结构是时间上的重复
六、跨领域联系：音乐、语言与生命
七、前沿：AI还差哪一步？

一、1/f噪声：音乐的分形骨架

物理学里有一个著名的坐标轴，一端是”白噪声”——完全随机，没有记忆，没有结构；另一端是”棕色噪声”——高度自相关，像醉汉随机漫步，太过沉闷。大多数让人感觉”对”的音乐，恰恰落在中间的某处，呈现出所谓的 1/f 噪声特性。

📐 1/f噪声的谱密度公式

S(f) ∝ 1/f^α，其中 0 < α < 2

翻译成人话：把一段信号（比如音符的音高序列）做频谱分析，如果功率谱密度随频率成反比下降——低频变化多、高频变化少，但不是随机也不是单调—— 那这个信号就有1/f特性。音乐中，这意味着既有长程的缓慢漂移（乐章级别的起伏），又有短程的快速变化（音符级别的跳动），两者自洽地嵌套在一起。

1991年，Hsü与Hsü在PNAS发表的经典分析^[1] 系统分析了巴赫与莫扎特的作品，指出音乐中的音高间隔序列表现出类似1/f噪声的自相似结构。这不是偶然：1/f特性意味着信号在不同时间尺度上”看起来差不多”—— 放大一小节，和缩小看一整首交响曲，结构的统计规律相似。这正是分形的核心含义。

🔬 1/f规律超越人类音乐

2023年发表在Scientific Reports的一项比较研究^[2] 发现，1/f型统计规律并不只出现在人类音乐中，在非人类发声序列里同样可见。这提示：某些”听起来好”的音乐复杂性，可能源于更一般的生物感知或运动组织原则，而非人类文化的专属发明。

分形结构不只是统计上的”好看”——它对听者的认知有实际影响。 Rankin、Large和Fink的实验^[3]表明，分形时间结构能显著提升听者的时间预测能力：当节拍序列具有自相似的波动特性时，大脑更容易预判下一个节拍的位置。另一项后续研究^[4]进一步发现，听觉-运动同步的质量更多取决于刺激的分形结构，而不是听者有没有经过音乐训练。换句话说：复杂结构本身就是信息，是大脑可以抓取和利用的组织信号。

💡 类比：城市的交通流

城市交通流也呈现1/f噪声：既不是完全随机的（那是混乱），也不是完全规则的（那是机器行进）。早高峰→晚高峰→凌晨的节律，嵌套在每分钟的车流波动里，再嵌套在每秒的车距变化里。音乐的时间结构与此如出一辙——正是这种跨尺度的有序性，让我们既能预测又保持期待。

二、集体即兴：秩序从互动中涌现

一个爵士三重奏在台上即兴演奏。没有指挥，没有完整乐谱，每个人都在实时决策。二十分钟后，台下观众感受到的，是一首有开头、有高潮、有结尾的完整音乐叙事。这种秩序从哪里来？答案不在任何一位演奏者的脑子里——它涌现自三者之间的实时互动。

🔑 共享意图的涌现

Goupil等人在2021年发表的实验研究^[5] 直接检验了这一机制：集体音乐即兴中的”共享意图”并非演奏前就存在，而是在互动过程中涌现出来的，并进而增强团队协调。这是”音乐中的涌现”迄今最直接的实验证据之一。

那么”时间感”是怎么来的？Walton等人^[6] 提出，音乐即兴中的节奏与结构感不是个体内部独立计算后叠加的，而是通过社会协作共同”创造”出来的分布式产物。你踢一脚，我顺着走；我停顿，你填补——在这种实时耦合里，整首曲子的时间骨架逐渐成形。

Bishop在Frontiers in Psychology的综述^[7] 进一步梳理了合奏中”保留自发性同时形成协调”的机制：注意力分配、动作预测、手势信号、共同的音乐框架—— 这些都是局部规则，正是它们在多人系统中的相互作用，产生了”这个乐队在一起”的宏观感。

🌍 多个”音乐身体”的自组织

Walton等人在2015年的理论论文^[8] 借用复杂系统中的耦合振子框架，把即兴乐队看作多个”音乐身体”的动态自组织：每个演奏者是一个振子，彼此通过声音信号耦合，在约束条件下共同达到动态稳定态。这不是比喻——这是可以用数学描述的机制。

涌现在集体即兴中还延伸到社会认知层面。 Aucouturier与Canonne的实验^[9] 发现，即兴互动中的音乐线索会影响参与者对彼此”亲密度”与”控制关系”的判断。谁在领奏，谁在跟随，谁在反叛——这些社会结构不是预先商定的，而是从音符的相互呼应中涌现出来的。

三、Agent-based模型：计算机里造音调

如果集体即兴中的秩序真的来自局部互动，那我们能不能在计算机里模拟这个过程？ Setzler和Goldstone在2022年的工作^[10] 给出了一个精彩的肯定答案。

🔑 “音调涌现”的Agent-based模型

他们设计了一套Agent-based模型（ABM）：每个agent根据局部互动规则调整自己偏好的音调，没有人告诉它”现在大家要用C大调”。模拟结果显示，音调协调会自发形成—— 从个体的随机偏好出发，通过反复的局部互动，系统收敛到共享的音调秩序。这是”音乐中的涌现”被形式化建模的关键案例。

这个模型的重要性不只在音乐领域。它展示了一条普遍路径： 宏观秩序（音调、调性、风格）不需要顶层设计，可以从微观规则（每个agent的局部决策）中生长出来。 这与生物学中的群体行为（鸟群、蚁群）、经济学中的市场价格形成，遵循同样的逻辑。

📐 ABM的基本动力学

x_i(t+1) = x_i(t) + η · Σ_j∈N(i)[x_j(t) − x_i(t)] + ε

翻译成人话：每个agent（演奏者i）下一时刻的音调偏好，等于自己当前偏好，加上一点点向邻居看齐的调整（η是学习率），再加一点随机扰动（ε）。就是这么简单的规则，在足够多的迭代后，可以产生整个系统的音调共识。没有人发号施令，秩序自然涌现。

四、AI作曲：会写句子，但写不好故事

现在把视线转向AI。过去十年，深度学习在音乐生成上取得了显著进展：系统可以生成符合和声规则的旋律，可以续写一段钢琴曲，可以模仿巴赫的对位风格。但有一个持续存在的根本性问题——AI擅长局部，不擅长整体。

Briot、Hadjeres和Pachet在2017年的综述^[12] 系统梳理了深度学习音乐生成的各类方法，并明确指出三大核心挑战：控制性（你想要什么就能生成什么）、结构性（整首曲子有没有内在逻辑）、创造性（能不能超越训练数据）。他们进一步的方法论分析^[13] 点明：深度学习已能生成”局部合理”的旋律，但长时程一致性、段落级结构、主题回归、动机发展，仍是核心难题。

❌ 常见误区：AI生成了音频≠AI在作曲

很多人听到AI生成的片段感觉”还不错”，就认为AI已经会作曲了。 Herremans等人^[14] 在功能分类框架里指出，”自动音乐生成”其实包含完全不同的子任务：旋律生成、伴奏编配、片段续写、条件生成…… 局部听感好≠整体结构对。能写一个好开头，不代表能写一首有结构的曲子。

这个困境有一个直接的技术原因：绝大多数序列生成模型在预测下一个token时， “视野”是有限的。当上下文窗口塞满了局部音符，更早的主题、更远的段落关系就被挤出了记忆。音乐的涌现结构——那些跨越几十秒、几分钟的重复与张力—— 正好落在模型最难处理的时间尺度上。

🔬 潜空间操作与人机共创

Pati、Gururani和Lerch^[15] 提出用潜空间遍历做音乐”inpainting”（填空式生成），让AI不再是”生成一整首”，而是”填补人类给出框架中的空白”。这把AI作曲从”全自动生成”转向”参与式共创”—— AI成为复杂系统中一个新的局部规则节点，而整体结构仍由人类主导。

可控性是另一个关键维度。Chen等人^[16] 的Music SketchNet把音高与节奏解耦建模，让用户可以分别控制旋律的”骨架”和”节奏肌肉”，再由模型补全细节。这与复杂系统的设计逻辑一致：给出约束条件（边界条件），放开局部自由度，让结构自发填充。

五、长程依赖：结构是时间上的重复

音乐的结构感，在很大程度上来自重复。主题的再现、副歌的回归、动机的变奏发展——这些都是跨越时间的自引用。当你在第8分钟听到与第2分钟相呼应的旋律片段，那一刻的”哦！”就是结构涌现的瞬间。

🔑 Music Transformer：相对注意力与长程依赖

Huang等人的Music Transformer^[11] 是AI音乐建模中的里程碑工作。他们引入”相对位置注意力”机制，让模型不只关注”这个音符在哪里”，而能感知”这个音符相对于更早音符的距离关系”—— 从而更好地捕捉音乐中跨越时间的重复与自引用。论文明确指出：音乐的意义高度依赖多时间尺度的重复，如果模型抓不住长程结构，生成结果就像”音乐片段”而不像”完整作品”。

那么当下的深度音乐生成系统，究竟在哪些地方最明显地缺失结构？ Dai等人在2022年的分析论文^[18] 直接回答了这个问题：他们系统分析了流行音乐中的重复与结构特征，并与深度生成系统的输出对比，发现AI生成的音乐在”重复性”和”段落结构”上的统计特征，与真实流行音乐有显著差距。换句话说：AI缺失的恰恰是音乐可感知形式的核心。

🌍 层级结构建模：让涌现显式化

Dai、Xia等人^[17] 提出用”层级音乐结构表示”来提升整曲一致性：先生成高层的段落框架（A-B-A结构），再填充中层的乐句，最后生成音符细节。这本质上是把涌现过程反过来工程化—— 不让结构自然涌现，而是显式给出约束，让细节在约束内生长。结果是生成的整曲更连贯，结构感更强。

Bhandari等人在2024年的综述^[19] 系统回顾了symbolic music generation中对动机、乐句、段落、全曲结构的各类建模尝试。结论清晰：越靠近细节层（单音符），模型越成熟；越靠近整体层（全曲叙事结构），进展越有限。这与涌现的本质形成了镜像：涌现是从细节自发生长出整体；而AI在反方向上的努力——从整体约束细节——目前仍未完全解决问题。

六、跨领域联系：音乐、语言与生命

音乐中的涌现并不孤立存在。从复杂系统的视角看，它与语言、生命、市场等领域的涌现现象有深刻的共鸣。

💡 音乐 vs 语言：都是从局部规则长出整体意义

语言中，单个词语没有故事；故事从词与词的关系、段落的承接、人物弧线的发展中涌现。音乐与此高度同构：单个音符没有情感；情感从音符的时间关系、张力与释放、主题的呼应中涌现。这解释了为什么大型语言模型（LLM）和大型音乐模型在结构挑战上面临相似的困境：都是局部预测很强，全局叙事结构很弱。

1/f噪声是另一个跨领域的桥梁。心跳的节律变化呈现1/f特性；神经元放电模式呈现1/f特性；股市波动呈现1/f特性。 1991年Hsü的发现^[1] 和2023年跨物种研究^[2] 共同指向一个可能：1/f噪声是复杂适应系统在”有序-随机”临界点附近运行的普遍特征，而这个临界点恰好也是系统对外部扰动最敏感、信息传递最高效的区域。

📜 从集体即兴到民主政治

Aucouturier与Canonne的研究^[9] 发现，即兴音乐中的”affiliation”（亲密感）和”control”（控制感）会从音符互动中涌现出来。这不只是音乐现象：它是小群体社会结构涌现的缩影—— 合奏中的协商与领导，映射的是群体协作与权力关系的动态形成过程。

七、前沿：AI还差哪一步？

站在2026年初看AI作曲的前沿，有一个清晰的技术趋势：研究者正在从Transformer架构转向新的长程建模方案。

🚀 Diffusion + 结构化状态空间模型

Yuan等人在2025年的工作^[20] 尝试把扩散模型（Diffusion Model）与结构化状态空间模型（SSM）结合，用于symbolic music生成。 SSM的核心优势在于：理论上能以线性计算代价处理任意长序列，不像Transformer那样注意力计算随序列长度平方增长。这直接针对音乐长程结构的计算瓶颈。这一路线是否能真正突破”会写句子、不会写故事”的困境，尚待验证。

但技术路线的进步还不够。从涌现的视角看，AI作曲面临的根本问题不只是”上下文更长”，而是层级结构的形成机制。真正的音乐结构不是在单一时间尺度上展开的，而是在多个嵌套的时间尺度上同时演化—— 音符、乐句、段落、全曲，每个层级都有自己的逻辑，层级之间又彼此约束。这正是分形自相似的本质，也是1/f音乐中那种”跨尺度一致性”的来源。

🧪 思维实验：如果AI能生成真正的涌现结构

想象一个AI系统，不是在token序列上预测下一个音符，而是在多个时间尺度上同时运行不同粒度的规划模块：一个模块负责”这首曲子的整体叙事弧线”，一个负责”每个段落的情感走向”，一个负责”每个乐句的旋律发展”，一个负责”每个音符的细节实现”。层级之间有约束，但每个层级内部有自由度—— 就像即兴乐队：有共识框架，但每个人在框架内即兴。这样的系统生成的音乐，可能才是真正意义上让结构”涌现”，而非被预先规划的。

近年的层级建模^[17]和结构综述^[19] 已经在朝这个方向走。但Bhandari等人的诊断仍然准确：越靠近整体叙事，AI进展越有限。真正的突破，可能不只需要更大的模型，而需要对”音乐是什么”有更深的计算理解—— 即，音乐是一种多尺度、层级式、时间上的自组织结构，而不是一种特别长的序列。

🎯 关键要点

音乐的美感不来自单个音符，而来自跨时间尺度自发成形的结构——这是涌现。
音乐常呈现1/f噪声的分形特性，处于有序与随机之间的临界区，这影响人类的感知与同步。
集体即兴是涌现的活体实验室：共享意图、音调秩序、社会结构，都从局部互动中自发形成。
Agent-based模型已能模拟”音调协调”的涌现过程，证明宏观音乐秩序不需要顶层设计。
AI作曲系统擅长局部、弱于整体：长程依赖、段落结构、主题回归仍是核心难题。
AI作曲真正困难的，与音乐本身最精彩的，是同一件事：让结构从局部规则中长出来。

📚 参考文献

Hsü KJ, Hsü AJ. Self-similarity of the “1/f noise” called music. Proc Natl Acad Sci USA. 1991;88(8):3507–3509. DOI: 10.1073/pnas.88.8.3507 | PubMed
Jermyn AS, Stevenson DJ, Levitin DJ. 1/f laws found in non-human music. Sci Rep. 2023;13(1):1324. DOI: 10.1038/s41598-023-28444-z | PubMed
Rankin SK, Large EW, Fink PW. Fractal structure enables temporal prediction in music. J Acoust Soc Am. 2014;136(4):EL256–EL262. DOI: 10.1121/1.4890198 | PubMed
Rankin SK, Limb CJ. Auditory-motor synchronization with temporally fluctuating sequences is dependent on fractal structure but not musical expertise. Front Psychol. 2014;5:970. DOI: 10.3389/fpsyg.2014.00970 | PubMed
Goupil L, Wolf T, Saint-Germier P, Aucouturier JJ, Canonne C. Emergent shared intentions support coordination during collective musical improvisations. Cogn Sci. 2021;45(1):e12932. DOI: 10.1111/cogs.12932 | PubMed
Walton AE, Washburn A, Langland-Hassan P, Chemero A, Kloos H, Richardson MJ. Creating time: Social collaboration in music improvisation. Top Cogn Sci. 2018;10(1):95–119. DOI: 10.1111/tops.12306 | PubMed
Bishop L. Collaborative musical creativity: How ensembles coordinate spontaneity. Front Psychol. 2018;9:1285. DOI: 10.3389/fpsyg.2018.01285 | PubMed
Walton AE, Richardson MJ, Langland-Hassan P, Chemero A. Improvisation and the self-organization of multiple musical bodies. Front Psychol. 2015;6:313. DOI: 10.3389/fpsyg.2015.00313 | PubMed
Aucouturier JJ, Canonne C. Musical friends and foes: The social cognition of affiliation and control in improvised interactions. Cognition. 2017;161:94–108. DOI: 10.1016/j.cognition.2017.01.019 | PubMed
Setzler M, Goldstone RL. Tonal emergence: An agent-based model of tonal coordination. Cognition. 2022;220:104968. DOI: 10.1016/j.cognition.2021.104968 | PubMed
Huang CZA, Vaswani A, Uszkoreit J, et al. Music Transformer: Generating music with long-term structure. arXiv. 2018. arXiv:1809.04281. arxiv.org/abs/1809.04281
Briot JP, Hadjeres G, Pachet F. Deep learning techniques for music generation — A survey. arXiv. 2017. arXiv:1709.01620. arxiv.org/abs/1709.01620
Briot JP, Hadjeres G, Pachet F. Music generation by deep learning: Challenges and directions. Neural Comput Appl. 2020;32:981–993. DOI: 10.1007/s00521-018-3813-6 | arXiv:1712.04371
Herremans D, Chuan CH, Chew E. A functional taxonomy of music generation systems. ACM Comput Surv. 2017;50(5):69. DOI: 10.1145/3108242 | arXiv:1812.04186
Pati A, Gururani S, Lerch A. Learning to traverse latent spaces for musical score inpainting. arXiv. 2019. arXiv:1907.01164. arxiv.org/abs/1907.01164
Chen K, Zhang Y, Wang H, et al. Music SketchNet: Controllable music generation via factorized representations of pitch and rhythm. arXiv. 2020. arXiv:2008.01291. arxiv.org/abs/2008.01291
Dai S, Xia G, Hsu C, et al. Controllable deep melody generation via hierarchical music structure representation. arXiv. 2021. arXiv:2109.00663. arxiv.org/abs/2109.00663
Dai S, Xia G, Herremans D. What is missing in deep music generation? A study of repetition and structure in popular music. arXiv. 2022. arXiv:2209.00182. arxiv.org/abs/2209.00182
Bhandari K, Kim J, Herremans D. Motifs, phrases, and beyond: The modelling of structure in symbolic music generation. arXiv. 2024. arXiv:2403.07995. arxiv.org/abs/2403.07995
Yuan S, Tang X, Chen J, et al. Diffusion-based symbolic music generation with structured state space models. arXiv. 2025. arXiv:2507.20128. arxiv.org/abs/2507.20128