一段旋律,由几十个音符构成。如果你把这些音符随机重排,你得到的是噪声,不是音乐。 但如果只是顺序稍作调整,整首曲子的气质就会面目全非。 音乐中有某种东西,不属于任何一个音符,却依赖所有音符才能存在——这就是涌现。 复杂系统科学告诉我们:当局部遵守简单规则,并在相互作用中形成新的层级结构时,涌现就发生了。 在音乐这个领域,涌现无处不在:从一首曲子的分形时间结构,到爵士乐队集体即兴时自发成形的秩序, 再到AI作曲系统面对”写出整首曲子”时遭遇的系统性困难。 这篇文章的核心问题是:音乐的美感从何而来?AI为什么很难真正”作曲”?
📑 本文目录
一、1/f噪声:音乐的分形骨架
物理学里有一个著名的坐标轴,一端是”白噪声”——完全随机,没有记忆,没有结构; 另一端是”棕色噪声”——高度自相关,像醉汉随机漫步,太过沉闷。 大多数让人感觉”对”的音乐,恰恰落在中间的某处,呈现出所谓的 1/f 噪声特性。
📐 1/f噪声的谱密度公式
翻译成人话:把一段信号(比如音符的音高序列)做频谱分析, 如果功率谱密度随频率成反比下降——低频变化多、高频变化少,但不是随机也不是单调—— 那这个信号就有1/f特性。音乐中,这意味着既有长程的缓慢漂移(乐章级别的起伏), 又有短程的快速变化(音符级别的跳动),两者自洽地嵌套在一起。
1991年,Hsü与Hsü在PNAS发表的经典分析[1] 系统分析了巴赫与莫扎特的作品,指出音乐中的音高间隔序列表现出类似1/f噪声的自相似结构。 这不是偶然:1/f特性意味着信号在不同时间尺度上”看起来差不多”—— 放大一小节,和缩小看一整首交响曲,结构的统计规律相似。 这正是分形的核心含义。
🔬 1/f规律超越人类音乐
2023年发表在Scientific Reports的一项比较研究[2] 发现,1/f型统计规律并不只出现在人类音乐中,在非人类发声序列里同样可见。 这提示:某些”听起来好”的音乐复杂性,可能源于更一般的生物感知或运动组织原则, 而非人类文化的专属发明。
分形结构不只是统计上的”好看”——它对听者的认知有实际影响。 Rankin、Large和Fink的实验[3]表明, 分形时间结构能显著提升听者的时间预测能力:当节拍序列具有自相似的波动特性时, 大脑更容易预判下一个节拍的位置。 另一项后续研究[4]进一步发现, 听觉-运动同步的质量更多取决于刺激的分形结构,而不是听者有没有经过音乐训练。 换句话说:复杂结构本身就是信息,是大脑可以抓取和利用的组织信号。
💡 类比:城市的交通流
城市交通流也呈现1/f噪声:既不是完全随机的(那是混乱), 也不是完全规则的(那是机器行进)。 早高峰→晚高峰→凌晨的节律,嵌套在每分钟的车流波动里,再嵌套在每秒的车距变化里。 音乐的时间结构与此如出一辙——正是这种跨尺度的有序性,让我们既能预测又保持期待。
二、集体即兴:秩序从互动中涌现
一个爵士三重奏在台上即兴演奏。没有指挥,没有完整乐谱,每个人都在实时决策。 二十分钟后,台下观众感受到的,是一首有开头、有高潮、有结尾的完整音乐叙事。 这种秩序从哪里来?答案不在任何一位演奏者的脑子里——它涌现自三者之间的实时互动。
🔑 共享意图的涌现
Goupil等人在2021年发表的实验研究[5] 直接检验了这一机制:集体音乐即兴中的”共享意图”并非演奏前就存在, 而是在互动过程中涌现出来的,并进而增强团队协调。 这是”音乐中的涌现”迄今最直接的实验证据之一。
那么”时间感”是怎么来的?Walton等人[6] 提出,音乐即兴中的节奏与结构感不是个体内部独立计算后叠加的, 而是通过社会协作共同”创造”出来的分布式产物。 你踢一脚,我顺着走;我停顿,你填补——在这种实时耦合里, 整首曲子的时间骨架逐渐成形。
Bishop在Frontiers in Psychology的综述[7] 进一步梳理了合奏中”保留自发性同时形成协调”的机制: 注意力分配、动作预测、手势信号、共同的音乐框架—— 这些都是局部规则,正是它们在多人系统中的相互作用, 产生了”这个乐队在一起”的宏观感。
🌍 多个”音乐身体”的自组织
Walton等人在2015年的理论论文[8] 借用复杂系统中的耦合振子框架,把即兴乐队看作多个”音乐身体”的动态自组织: 每个演奏者是一个振子,彼此通过声音信号耦合,在约束条件下共同达到动态稳定态。 这不是比喻——这是可以用数学描述的机制。
涌现在集体即兴中还延伸到社会认知层面。 Aucouturier与Canonne的实验[9] 发现,即兴互动中的音乐线索会影响参与者对彼此”亲密度”与”控制关系”的判断。 谁在领奏,谁在跟随,谁在反叛——这些社会结构不是预先商定的, 而是从音符的相互呼应中涌现出来的。
三、Agent-based模型:计算机里造音调
如果集体即兴中的秩序真的来自局部互动,那我们能不能在计算机里模拟这个过程? Setzler和Goldstone在2022年的工作[10] 给出了一个精彩的肯定答案。
🔑 “音调涌现”的Agent-based模型
他们设计了一套Agent-based模型(ABM):每个agent根据局部互动规则调整自己偏好的音调, 没有人告诉它”现在大家要用C大调”。 模拟结果显示,音调协调会自发形成—— 从个体的随机偏好出发,通过反复的局部互动,系统收敛到共享的音调秩序。 这是”音乐中的涌现”被形式化建模的关键案例。
这个模型的重要性不只在音乐领域。它展示了一条普遍路径: 宏观秩序(音调、调性、风格)不需要顶层设计,可以从微观规则(每个agent的局部决策)中生长出来。 这与生物学中的群体行为(鸟群、蚁群)、经济学中的市场价格形成,遵循同样的逻辑。
📐 ABM的基本动力学
翻译成人话:每个agent(演奏者i)下一时刻的音调偏好, 等于自己当前偏好,加上一点点向邻居看齐的调整(η是学习率), 再加一点随机扰动(ε)。 就是这么简单的规则,在足够多的迭代后,可以产生整个系统的音调共识。 没有人发号施令,秩序自然涌现。
四、AI作曲:会写句子,但写不好故事
现在把视线转向AI。过去十年,深度学习在音乐生成上取得了显著进展: 系统可以生成符合和声规则的旋律,可以续写一段钢琴曲,可以模仿巴赫的对位风格。 但有一个持续存在的根本性问题——AI擅长局部,不擅长整体。
Briot、Hadjeres和Pachet在2017年的综述[12] 系统梳理了深度学习音乐生成的各类方法,并明确指出三大核心挑战: 控制性(你想要什么就能生成什么)、结构性(整首曲子有没有内在逻辑)、 创造性(能不能超越训练数据)。 他们进一步的方法论分析[13] 点明:深度学习已能生成”局部合理”的旋律, 但长时程一致性、段落级结构、主题回归、动机发展,仍是核心难题。
❌ 常见误区:AI生成了音频≠AI在作曲
很多人听到AI生成的片段感觉”还不错”,就认为AI已经会作曲了。 Herremans等人[14] 在功能分类框架里指出,”自动音乐生成”其实包含完全不同的子任务: 旋律生成、伴奏编配、片段续写、条件生成…… 局部听感好≠整体结构对。能写一个好开头,不代表能写一首有结构的曲子。
这个困境有一个直接的技术原因:绝大多数序列生成模型在预测下一个token时, “视野”是有限的。当上下文窗口塞满了局部音符,更早的主题、更远的段落关系就被挤出了记忆。 音乐的涌现结构——那些跨越几十秒、几分钟的重复与张力—— 正好落在模型最难处理的时间尺度上。
🔬 潜空间操作与人机共创
Pati、Gururani和Lerch[15] 提出用潜空间遍历做音乐”inpainting”(填空式生成), 让AI不再是”生成一整首”,而是”填补人类给出框架中的空白”。 这把AI作曲从”全自动生成”转向”参与式共创”—— AI成为复杂系统中一个新的局部规则节点,而整体结构仍由人类主导。
可控性是另一个关键维度。Chen等人[16] 的Music SketchNet把音高与节奏解耦建模,让用户可以分别控制旋律的”骨架”和”节奏肌肉”, 再由模型补全细节。这与复杂系统的设计逻辑一致: 给出约束条件(边界条件),放开局部自由度,让结构自发填充。
五、长程依赖:结构是时间上的重复
音乐的结构感,在很大程度上来自重复。 主题的再现、副歌的回归、动机的变奏发展——这些都是跨越时间的自引用。 当你在第8分钟听到与第2分钟相呼应的旋律片段,那一刻的”哦!”就是结构涌现的瞬间。
🔑 Music Transformer:相对注意力与长程依赖
Huang等人的Music Transformer[11] 是AI音乐建模中的里程碑工作。 他们引入”相对位置注意力”机制,让模型不只关注”这个音符在哪里”, 而能感知”这个音符相对于更早音符的距离关系”—— 从而更好地捕捉音乐中跨越时间的重复与自引用。 论文明确指出:音乐的意义高度依赖多时间尺度的重复, 如果模型抓不住长程结构,生成结果就像”音乐片段”而不像”完整作品”。
那么当下的深度音乐生成系统,究竟在哪些地方最明显地缺失结构? Dai等人在2022年的分析论文[18] 直接回答了这个问题:他们系统分析了流行音乐中的重复与结构特征, 并与深度生成系统的输出对比,发现AI生成的音乐在”重复性”和”段落结构”上的统计特征, 与真实流行音乐有显著差距。 换句话说:AI缺失的恰恰是音乐可感知形式的核心。
🌍 层级结构建模:让涌现显式化
Dai、Xia等人[17] 提出用”层级音乐结构表示”来提升整曲一致性: 先生成高层的段落框架(A-B-A结构),再填充中层的乐句,最后生成音符细节。 这本质上是把涌现过程反过来工程化—— 不让结构自然涌现,而是显式给出约束,让细节在约束内生长。 结果是生成的整曲更连贯,结构感更强。
Bhandari等人在2024年的综述[19] 系统回顾了symbolic music generation中对动机、乐句、段落、全曲结构的各类建模尝试。 结论清晰:越靠近细节层(单音符),模型越成熟; 越靠近整体层(全曲叙事结构),进展越有限。 这与涌现的本质形成了镜像:涌现是从细节自发生长出整体; 而AI在反方向上的努力——从整体约束细节——目前仍未完全解决问题。
六、跨领域联系:音乐、语言与生命
音乐中的涌现并不孤立存在。从复杂系统的视角看,它与语言、生命、市场等领域的涌现现象有深刻的共鸣。
💡 音乐 vs 语言:都是从局部规则长出整体意义
语言中,单个词语没有故事;故事从词与词的关系、段落的承接、 人物弧线的发展中涌现。音乐与此高度同构: 单个音符没有情感;情感从音符的时间关系、张力与释放、主题的呼应中涌现。 这解释了为什么大型语言模型(LLM)和大型音乐模型在结构挑战上面临相似的困境: 都是局部预测很强,全局叙事结构很弱。
1/f噪声是另一个跨领域的桥梁。心跳的节律变化呈现1/f特性; 神经元放电模式呈现1/f特性;股市波动呈现1/f特性。 1991年Hsü的发现[1] 和2023年跨物种研究[2] 共同指向一个可能:1/f噪声是复杂适应系统在”有序-随机”临界点附近运行的普遍特征, 而这个临界点恰好也是系统对外部扰动最敏感、信息传递最高效的区域。
📜 从集体即兴到民主政治
Aucouturier与Canonne的研究[9] 发现,即兴音乐中的”affiliation”(亲密感)和”control”(控制感) 会从音符互动中涌现出来。 这不只是音乐现象:它是小群体社会结构涌现的缩影—— 合奏中的协商与领导,映射的是群体协作与权力关系的动态形成过程。
七、前沿:AI还差哪一步?
站在2026年初看AI作曲的前沿,有一个清晰的技术趋势: 研究者正在从Transformer架构转向新的长程建模方案。
🚀 Diffusion + 结构化状态空间模型
Yuan等人在2025年的工作[20] 尝试把扩散模型(Diffusion Model)与结构化状态空间模型(SSM)结合, 用于symbolic music生成。 SSM的核心优势在于:理论上能以线性计算代价处理任意长序列, 不像Transformer那样注意力计算随序列长度平方增长。 这直接针对音乐长程结构的计算瓶颈。 这一路线是否能真正突破”会写句子、不会写故事”的困境,尚待验证。
但技术路线的进步还不够。从涌现的视角看,AI作曲面临的根本问题不只是”上下文更长”, 而是层级结构的形成机制。 真正的音乐结构不是在单一时间尺度上展开的,而是在多个嵌套的时间尺度上同时演化—— 音符、乐句、段落、全曲,每个层级都有自己的逻辑,层级之间又彼此约束。 这正是分形自相似的本质,也是1/f音乐中那种”跨尺度一致性”的来源。
🧪 思维实验:如果AI能生成真正的涌现结构
想象一个AI系统,不是在token序列上预测下一个音符, 而是在多个时间尺度上同时运行不同粒度的规划模块: 一个模块负责”这首曲子的整体叙事弧线”, 一个负责”每个段落的情感走向”, 一个负责”每个乐句的旋律发展”, 一个负责”每个音符的细节实现”。 层级之间有约束,但每个层级内部有自由度—— 就像即兴乐队:有共识框架,但每个人在框架内即兴。 这样的系统生成的音乐,可能才是真正意义上让结构”涌现”,而非被预先规划的。
近年的层级建模[17]和 结构综述[19] 已经在朝这个方向走。但Bhandari等人的诊断仍然准确: 越靠近整体叙事,AI进展越有限。 真正的突破,可能不只需要更大的模型, 而需要对”音乐是什么”有更深的计算理解—— 即,音乐是一种多尺度、层级式、时间上的自组织结构, 而不是一种特别长的序列。
- 音乐的美感不来自单个音符,而来自跨时间尺度自发成形的结构——这是涌现。
- 音乐常呈现1/f噪声的分形特性,处于有序与随机之间的临界区,这影响人类的感知与同步。
- 集体即兴是涌现的活体实验室:共享意图、音调秩序、社会结构,都从局部互动中自发形成。
- Agent-based模型已能模拟”音调协调”的涌现过程,证明宏观音乐秩序不需要顶层设计。
- AI作曲系统擅长局部、弱于整体:长程依赖、段落结构、主题回归仍是核心难题。
- AI作曲真正困难的,与音乐本身最精彩的,是同一件事:让结构从局部规则中长出来。
📚 参考文献
- Hsü KJ, Hsü AJ. Self-similarity of the “1/f noise” called music. Proc Natl Acad Sci USA. 1991;88(8):3507–3509. DOI: 10.1073/pnas.88.8.3507 | PubMed
- Jermyn AS, Stevenson DJ, Levitin DJ. 1/f laws found in non-human music. Sci Rep. 2023;13(1):1324. DOI: 10.1038/s41598-023-28444-z | PubMed
- Rankin SK, Large EW, Fink PW. Fractal structure enables temporal prediction in music. J Acoust Soc Am. 2014;136(4):EL256–EL262. DOI: 10.1121/1.4890198 | PubMed
- Rankin SK, Limb CJ. Auditory-motor synchronization with temporally fluctuating sequences is dependent on fractal structure but not musical expertise. Front Psychol. 2014;5:970. DOI: 10.3389/fpsyg.2014.00970 | PubMed
- Goupil L, Wolf T, Saint-Germier P, Aucouturier JJ, Canonne C. Emergent shared intentions support coordination during collective musical improvisations. Cogn Sci. 2021;45(1):e12932. DOI: 10.1111/cogs.12932 | PubMed
- Walton AE, Washburn A, Langland-Hassan P, Chemero A, Kloos H, Richardson MJ. Creating time: Social collaboration in music improvisation. Top Cogn Sci. 2018;10(1):95–119. DOI: 10.1111/tops.12306 | PubMed
- Bishop L. Collaborative musical creativity: How ensembles coordinate spontaneity. Front Psychol. 2018;9:1285. DOI: 10.3389/fpsyg.2018.01285 | PubMed
- Walton AE, Richardson MJ, Langland-Hassan P, Chemero A. Improvisation and the self-organization of multiple musical bodies. Front Psychol. 2015;6:313. DOI: 10.3389/fpsyg.2015.00313 | PubMed
- Aucouturier JJ, Canonne C. Musical friends and foes: The social cognition of affiliation and control in improvised interactions. Cognition. 2017;161:94–108. DOI: 10.1016/j.cognition.2017.01.019 | PubMed
- Setzler M, Goldstone RL. Tonal emergence: An agent-based model of tonal coordination. Cognition. 2022;220:104968. DOI: 10.1016/j.cognition.2021.104968 | PubMed
- Huang CZA, Vaswani A, Uszkoreit J, et al. Music Transformer: Generating music with long-term structure. arXiv. 2018. arXiv:1809.04281. arxiv.org/abs/1809.04281
- Briot JP, Hadjeres G, Pachet F. Deep learning techniques for music generation — A survey. arXiv. 2017. arXiv:1709.01620. arxiv.org/abs/1709.01620
- Briot JP, Hadjeres G, Pachet F. Music generation by deep learning: Challenges and directions. Neural Comput Appl. 2020;32:981–993. DOI: 10.1007/s00521-018-3813-6 | arXiv:1712.04371
- Herremans D, Chuan CH, Chew E. A functional taxonomy of music generation systems. ACM Comput Surv. 2017;50(5):69. DOI: 10.1145/3108242 | arXiv:1812.04186
- Pati A, Gururani S, Lerch A. Learning to traverse latent spaces for musical score inpainting. arXiv. 2019. arXiv:1907.01164. arxiv.org/abs/1907.01164
- Chen K, Zhang Y, Wang H, et al. Music SketchNet: Controllable music generation via factorized representations of pitch and rhythm. arXiv. 2020. arXiv:2008.01291. arxiv.org/abs/2008.01291
- Dai S, Xia G, Hsu C, et al. Controllable deep melody generation via hierarchical music structure representation. arXiv. 2021. arXiv:2109.00663. arxiv.org/abs/2109.00663
- Dai S, Xia G, Herremans D. What is missing in deep music generation? A study of repetition and structure in popular music. arXiv. 2022. arXiv:2209.00182. arxiv.org/abs/2209.00182
- Bhandari K, Kim J, Herremans D. Motifs, phrases, and beyond: The modelling of structure in symbolic music generation. arXiv. 2024. arXiv:2403.07995. arxiv.org/abs/2403.07995
- Yuan S, Tang X, Chen J, et al. Diffusion-based symbolic music generation with structured state space models. arXiv. 2025. arXiv:2507.20128. arxiv.org/abs/2507.20128