这项由卡内基梅隆大学语言技术研究所、约翰斯·霍普金斯大学计算机系、东北大学Khoury计算机学院以及南加州大学计算机系联合完成的研究,于2026年4月发布在arXiv预印本平台,论文编号为arXiv:2604.08510。感兴趣的读者可通过该编号查阅完整原文。
**一个困扰研究者多年的谜题**
每当一个孩子学语言,我们会发现他们几乎总是先学会叫"妈妈",然后学会说简单名词,再学会造句,最后才能讲述复杂的故事。这个学习顺序不是随机的,而是有内在规律的。那么,人工智能语言模型呢?它们在接受大量文字训练时,是否也存在这样一个固定的"学习成长顺序"?
卡内基梅隆大学等高校的研究团队对这个问题展开了深入研究,并提出了一个令人兴奋的猜想,他们将其命名为"隐性课程假说"(Implicit Curriculum Hypothesis)。简单来说,他们猜测:不同的AI语言模型,即使来自不同的公司、用不同的数据训练,在学习各种技能的顺序上,会呈现出出人意料的一致性——就像不同国家的孩子,虽然学的是不同的母语,但都会先学简单词汇再学复杂语法一样。
这个问题之所以重要,是因为现代AI语言模型的训练极其昂贵,有时甚至需要耗资数百万美元。然而,工程师们监控模型训练进展的方式,一直停留在观察一个叫做"交叉熵损失"的数字上——这个数字虽然会随着训练持续下降,但它就像只告诉你学生"总分提高了多少",而完全无法告诉你"这个学生现在会不会做加减法"、"会不会写作文"。研究团队希望填补这一空白,找到一套更精细的方法来理解AI究竟在什么时候学会了什么。
**一、给AI设计一套"能力测试题"**
要研究AI学习技能的顺序,首先需要一套设计精良的测试题。研究团队设计了一套共91道测试任务,涵盖了从极简单到相对复杂的各类技能。
这些任务分为两大类。第一类叫做"基础任务",共53个,每个任务只考查一种特定能力。比如,"复制"任务就是把输入的文字原样输出;"大写"任务是把输入的小写字母变成大写;"翻译英译法"任务是把英文单词翻译成法文;"提取数字"任务是从一段文字描述中找出数字。这些任务涵盖了字符串操作(比如倒序、取首字母)、词形变换(比如把动词变成进行时形式)、知识检索(比如回答某个国家的首都是哪里)、翻译、算术计算以及逻辑推理等多个维度。
第二类叫做"组合任务",共38个,是将多个基础任务串联起来完成的。比如,"动词进行时+大写"这个任务,要求先把输入的动词变成进行时形式,再把结果全部大写——输入"run",正确答案是"RUNNING"。再比如,"法译英+倒序"任务,需要先把法语单词翻译成英语,再把英语单词的字母倒序排列——输入"bonjour",正确答案是"olleh"。这种设计的妙处在于,每个组合任务的"先决条件"是已知的:要完成"动词进行时+大写",模型必须先会"动词进行时"和"大写"这两个基础任务。
这套测试的评分方式也很简洁:完全匹配才算正确,没有模糊地带。这让研究者能够精确地追踪每个模型在每个训练时间点上,到底有没有掌握某项技能。
**二、横跨四个"模型家族"的追踪实验**
测试题有了,接下来需要"被测者"。研究团队选择了9个不同的AI语言模型,来自4个不同的模型家族,参数规模从4亿到130亿不等。
这4个家族分别是:OLMo-2系列,包含10亿、70亿和130亿参数的三个版本,可以研究同一家族内规模变化的影响;OLMo-3系列,有一个70亿参数版本,可以与OLMo-2进行跨代比较;LLM360系列,包含Crystal(7B)和Amber(7B)两个模型,它们的特别之处在于训练数据完全不同——Crystal偏向代码数据,Amber偏向自然语言数据,这让研究者可以在控制模型架构的同时,研究数据组成对学习顺序的影响;以及Pythia系列,包含4亿、14亿和120亿参数三个版本,这是一个较早期的模型系列,用不同于前三者的数据训练。
每个模型都提供了训练过程中保存的"中间检查点"——可以把它们理解为模型成长过程中不同时间点的"快照"。研究团队聚焦于每个模型训练的前1万亿个词元(token)阶段,并在这段时间内大约均匀采样20个检查点,相当于每隔200亿词元"拍一张照"。通过对这些快照逐一进行91道测试题的测评,就可以描绘出每个技能在每个模型中随时间变化的"成长曲线"。
**三、技能出现的顺序,跨模型高度一致**
研究的第一个核心发现,是对"隐性课程假说"第一个预测的验证:不同模型学习技能的顺序,高度相似。
研究团队定义了一个"技能出现时间点":当某个模型在某项任务上的准确率首次超过80%时,认为该模型"掌握"了这项技能。然后,他们比较不同模型的技能掌握顺序是否一致。
结果令人印象深刻。在所有45对模型的两两比较中,技能掌握顺序的斯皮尔曼秩相关系数(一种衡量两个排名序列是否相似的统计指标)平均高达0.81,最低也有0.64,最高达到0.93,且所有相关系数的统计显著性都极高,p值远小于10的负7次方。换句话说,如果你知道了某个模型掌握各项技能的顺序,你就能以相当高的准确度预测另一个完全不同的模型的掌握顺序——哪怕这两个模型来自不同的公司、用不同的数据训练、参数量相差数倍。
那么,这个顺序具体是什么样的?最先被所有模型掌握的技能是"复制",即把输入原样输出。这也许并不令人惊讶,因为这是最简单的信息传递任务。紧随其后的是各类简单的字符串操作,比如大写、小写、提取首字母等。然后是词形变换,比如把动词变成进行时形式,把单数名词变成复数。接下来是知识检索类任务,比如翻译和回答简单事实性问题。再往后,简单的逻辑推断开始出现。最后才出现的是多步骤算术计算和更复杂的推理任务。
同族模型之间的相关性尤其高,比如OLMo-2的7B和13B版本相关系数高达0.93。但即便是跨越家族、跨越数据类型、跨越年代的比较,相关性也依然显著——比如Amber与OLMo-2系列的相关系数在0.82到0.88之间,即便是最"风格迥异"的组合,比如仅有4亿参数的Pythia-410M与130亿参数的OLMo-2-13B,相关系数也达到了0.60。
这里有一个重要的细节:这种高度一致性,只在使用绝对准确率阈值(比如固定在80%)时成立。如果改用相对阈值(比如达到该模型在该任务上历史最高分的80%),跨模型的相关性就会大幅下降,平均只有0.50左右。研究团队对此给出了合理的解释:相对阈值依赖于每个模型自己的"天花板",一个能力较弱的模型可能在某项任务上永远无法达到有意义的准确率,却可能因为偶然性较早触发了相对阈值;而绝对阈值更接近"这个模型真正学会了这件事"这个概念,因此能更准确地捕捉"技能出现"这一事件。
**四、复杂任务总是在其组成部分之后出现**
研究的第二个核心发现,验证了假说的第二个预测:组合任务通常在其组成的基础任务之后才被模型掌握。
在总共76对"组合任务-基础任务"的比较中,有54对符合预期——组合任务确实在基础任务之后出现。这个比例大约是71%,算不上完美,但已经提供了相当强的支持证据。
剩余的违反情况可以分为两类。其中19个属于"弱违反"——组合任务的出现时间比其中一个基础任务早,但另一个基础任务还是先出现了;另外只有3个属于"强违反"——组合任务比它的所有基础任务都更早出现。有意思的是,这3个强违反的案例,全都涉及同一个基础任务:"提取首字母"。这个发现暗示,"提取首字母"这个任务,虽然在测试框架中被设计为其他任务的组成部分,但它在实际训练动态中的位置可能与其他基础任务不太一样——可能是因为直接取首字母这个操作,在现实中往往会和更复杂的任务同时出现在训练数据里,从而让模型在学会"单独"做这件事之前,就在组合情境下见过它了。
这个发现的意义在于,它将我们对AI学习的理解从"AI只是在随机学习"推向了"AI的学习遵循一种结构性的从简到难的顺序"。当你理解了这种顺序,就可以用它来诊断模型训练是否正常:如果模型在某个复杂任务上表现差劲,你可以检查它的"先决技能"是否都已经掌握了;如果连先决技能都没学好,那就找到问题的根源了。
**五、技能的"形状"决定了它的"命运"**
研究的第三个,也是最令人着迷的发现,涉及到模型内部的表示空间。
在AI语言模型内部,每个任务都可以被表示为一个高维空间中的"方向向量"——研究团队把这些向量称为"功能向量"(function vector)。你可以把它理解为模型内部对"如何完成这个任务"的一种压缩摘要。两个任务的功能向量越相似(就像两个指向差不多方向的箭头),说明模型执行这两个任务时用到的内部机制越相似。
研究团队提出了第三个预测:内部表示相似的任务,学习轨迹也应该相似。通俗地说,如果模型处理"法译英"和"西译英"的方式在内部高度相似,那么这两项技能的成长曲线也应该高度相似——比如都在训练到大约200亿词元时开始明显提升,都在600亿词元时趋于稳定。
为了验证这个预测,研究团队设计了一个精巧的实验。他们把38个组合任务一个一个地"藏起来",假装自己从来没有观测过那个任务的训练轨迹,然后只用其他任务的功能向量和训练轨迹信息,来预测那个被藏起来的任务的训练轨迹——整个过程不用对那个任务做任何实际测试,完全依赖表示空间中的"邻居关系"来推断。
这个实验的结果出乎意料地好。在包含所有任务(基础任务和其他组合任务)作为参考的条件下,预测质量的R?(判定系数,越接近1说明预测越准确)在不同模型上介于0.68到0.84之间,其中部分单个任务的预测精度甚至超过了0.95。以OLMo-2 7B为例,对"法译英再大写"这个组合任务的预测,R?高达0.99,平均绝对误差只有0.017——几乎与真实轨迹完全重合。对"复数再小写"的预测R?也达到了0.89。
当然,也有预测效果较差的案例,比如"英译法再大写"的R?只有0.51,说明这个任务的训练轨迹与它在表示空间中的邻居不够相似,或者邻居本身的轨迹也比较杂乱。
更有趣的是,研究团队还比较了两种参考条件:用"所有任务"作为参考,还是只用"基础任务"作为参考。结果发现,一旦把组合任务从参考集中移除,预测误差(MAE,平均绝对误差)在所有模型上都显著增加,平均增加了0.135。这说明,组合任务之间共享的某种特殊结构,是无法完全用基础任务来"替代"的——也就是说,"组合本身"这件事在模型的内部表示中也留下了独特的痕迹。研究者把这种现象称为"组合瓶颈",意指学习如何将技能组合起来,是一种超越了单独学习每项技能的额外能力。
**六、这套发现意味着什么**
归根结底,这项研究揭示了一件很有意思的事:AI语言模型的训练,并不像表面上看起来那么混乱和不可预测。在平滑下降的损失曲线背后,隐藏着一个有序的技能习得过程,这个过程在不同模型、不同数据、不同规模上保持着令人惊讶的一致性。
这对AI研究和应用来说有几层实际意义。其一,这为"AI训练监控"提供了一种新思路。以往,工程师只能盯着损失曲线,看不出模型到底学到了什么。而这套任务测试体系,可以作为一组"能力里程碑",帮助工程师判断模型是否在以正常节奏发展各项能力。如果某个预期早出现的技能迟迟没有出现,这可能是一个需要排查的异常信号。
其二,这为理解AI的"能力瓶颈"提供了新工具。当一个AI在某个复杂任务(比如数学应用题)上表现不佳时,研究者现在可以系统地检查该任务所依赖的先决技能链,而不是面对一个黑盒手足无措。这就像是给了医生一套完整的症状-病因图谱,而不是只有一个"患者病得很重"的诊断结论。
其三,技能习得顺序与功能向量空间之间的关联,暗示了AI内部表示的几何结构本身就携带了关于学习动态的信息。换句话说,通过分析一个充分训练好的模型的内部结构,我们或许可以推断出它在训练过程中经历了怎样的发展路径。这开辟了一个用"解剖学"来倒推"发育史"的研究方向。
当然,这项研究也有其局限性。研究选取的任务,整体上还是比较简单、结构清晰的,与现实世界中复杂的语言理解和生成任务之间存在一定距离。此外,研究仅覆盖了训练前1万亿词元的阶段,对于更后期的训练动态,是否同样规律依然成立,还有待进一步探索。研究使用的模型参数量上限为130亿,当代最大的前沿模型动辄千亿参数,这套规律在超大规模模型上是否仍然适用,同样是一个开放问题。
这就像我们发现了儿童语言习得有固定顺序一样——这个发现本身很重要,但它只是更宏大的、关于智能如何发展这一问题的一个开端。那些更大的模型、更复杂的技能组合、更长的训练周期,都在等待着后续研究的探索。
Q&A
Q1:隐性课程假说是什么意思,它和真正的课程有什么关系?
A:隐性课程假说说的是,AI语言模型在用大量文字训练时,并没有人为设计学习顺序,但模型自发地会先学简单技能、后学复杂技能,而且不同模型的这种学习顺序高度相似。这里的"课程"是个比喻,指学习的先后安排,"隐性"则是说这个顺序不是人刻意设定的,而是训练过程自然涌现出来的。
Q2:为什么用绝对准确率阈值来定义"技能出现",而不是相对阈值?
A:用相对阈值(比如达到模型自身历史最高分的80%)时,跨模型的顺序一致性会大幅下降。原因是不同模型的"天花板"差异很大——弱模型可能在某项任务上永远达不到有意义的水平,但可能因为随机波动较早触发了相对阈值。绝对阈值(固定在80%准确率)更准确地反映了模型真正学会了这件事,所以能更清楚地捕捉技能出现的时间点。
Q3:功能向量是怎么提取出来的,它真的能代表模型"如何理解一项任务"吗?
A:功能向量是通过让模型完成某项任务的示例题目,然后记录模型内部特定位置(注意力头的输出或残差流的隐藏状态)的激活值,再对多个例题的激活值取平均来得到的。研究中只使用了模型答对的例题,确保提取的是"成功执行任务"时的内部状态。这个向量能在一定程度上代表模型执行该任务的内部机制,因为它能预测任务的学习轨迹,但它并不是对模型内部机制的完整描述,更像是一种有用的近似表示。