![]()
这项由加州大学圣地亚哥分校(University of California, San Diego)与Together AI联合开展的研究,发表于2026年4月的arXiv预印本平台,论文编号为arXiv:2604.12946v1,收录于cs.LG(机器学习)方向。有兴趣深入了解的读者可通过该编号查询完整论文。
**一、一块芯片能跑多强的大脑?让AI"原地踏步"反而变强的秘密**
当我们谈论AI变得更聪明时,脑海中浮现的画面往往是一台越来越大的机器——更多的参数、更多的层数、更多的芯片堆砌。这就好比你想让厨房做出更好的菜,方法只有一个:把厨房扩建得更大,买更多的锅碗瓢盆。然而这条路终究有尽头。当AI模型越来越庞大,把它们部署到手机、平板乃至小型边缘设备上就会变得极其困难,因为这些设备的内存和计算资源是有限的。
这项研究的出发点正是这个现实困境:有没有办法在不增加参数(不扩建厨房)的前提下,让AI变得更聪明?研究团队给出的答案是——让AI反复"咀嚼"同一块内容。具体来说,就是让神经网络的某些层在处理一段数据时不是经历一次就算了,而是绕圈子、循环地走过同样的层好几遍,每次都能基于上一轮的理解再深入一层。这就像一个厨师在同一口锅里反复翻炒,而不是用更多的锅同时操作。这类模型被称为"循环(looped)架构",而研究团队提出的新方法就叫做**Parcae**,名字来自罗马神话中掌控命运线的三位命运女神。
然而这条路并不平坦。在此之前,已有研究者尝试过这种循环架构,但训练过程极不稳定——模型时常崩溃,损失值突然飙升,就像那口反复翻炒的锅突然烧穿了底一样。没有人能清楚地说明,究竟是什么原因让这口锅如此脆弱。正是这个尚未解答的问题,驱使这支团队展开了这项研究。
**二、问题的根源:那口锅为什么总在烧穿?**
要修好一口反复翻炒会烧穿的锅,首先得弄清楚它为什么会烧穿。研究团队采用了一个来自工程控制领域的经典工具——**线性时不变系统(LTI系统)**的分析框架。这听起来很学术,但核心思路其实非常直白:把AI模型内部的信息流动,看成一条随时间演化的"水流",然后分析这条水流在反复循环过程中会不会越流越大、直到决堤。
具体来说,当信息在循环层中不断流动时,每一次循环都可以用一个简化的数学公式来描述:新的状态等于"旧状态乘以一个矩阵A,再加上输入信号乘以一个矩阵B"。这里的矩阵A就像一个"放大器"——它决定了信息在每一轮循环后会被放大、缩小还是保持不变。
控制理论早就告诉我们,这个放大器有一个关键性质,叫做**谱范数**(可以通俗地理解为这个矩阵能把向量放大的最大倍数)。如果谱范数大于1,信息就会在每轮循环中持续放大,最终变成天文数字,导致整个系统崩溃——这就是研究者们观察到的"残差状态爆炸"现象。如果谱范数等于1,系统处于一种勉强稳定的临界状态,随时可能失控。只有谱范数严格小于1,信息流才会在循环过程中逐渐收敛,就像一个稳定振荡最终趋于平静的秋千。
研究团队对此前已有的几种循环注入方式进行了分析,发现了令人担忧的结论。其中一种采用"加法注入"的方法(即把输入直接加到隐藏状态上),其矩阵A实际上就是单位矩阵I,谱范数恰好等于1,处于临界不稳定状态。另一种采用"拼接投影"的方法,其矩阵A是一个完全不受约束的可学习矩阵,谱范数可以任意大,稳定性完全依赖于训练过程中的运气。
实验数据清晰地印证了这一分析。研究团队在不同学习率下训练这些模型,观察到:凡是发散的训练运行,其矩阵A的谱范数都会超过1;而那些勉强收敛的运行,谱范数始终保持在1以下。这就像在实验室里清楚地看到,水温超过100摄氏度就沸腾一样直接。与此同时,即便是那些没有完全发散的训练,在长时间训练后(比如超过17万步之后)仍然会出现损失值突然抖动的现象,说明问题并未从根本上解决。
**三、Parcae的设计:给那口锅加上一个温度调节器**
既然问题已经找到,解决方案就有了明确的方向:必须从架构层面约束矩阵A的谱范数,使其始终小于1,而不是依靠运气或者复杂的超参数调整来维持稳定。
研究团队采用的具体方案有几个环环相扣的设计。首先,他们把矩阵A设计成一个**负对角矩阵**的离散化形式。所谓负对角矩阵,就是只有对角线上有值(其余全为零),而且每个对角线上的值都是负数。这样的矩阵天然保证了其特征值为负数,经过指数函数映射(离散化步骤)之后,所有特征值都落在0到1之间,谱范数自然严格小于1。这就好比在放大器上安装了一个硬性限流器,无论外部条件怎么变化,电流都不会超过安全上限。具体的数学形式是:A := Diag(–exp(log A)),其中log A是可学习的参数向量,整个结构通过零阶保持(ZOH)方案进行离散化,而矩阵B则采用欧拉方案离散化,搭配一个可学习的步长参数Δ。
其次,为了解决那种在训练后期出现的损失抖动问题,研究团队在输入信号e进入循环层之前加入了一个**归一化层(Prelude Norm)**。这相当于在食材入锅之前先统一切成相同大小,防止某块过大的食材突然把锅撑坏。这个设计的必要性在1.3B参数规模的大模型训练中尤为突出——在没有归一化保护的情况下,模型在训练到约15万步后开始出现状态爆炸,进一步追踪发现爆炸的根源正是预处理块输出的数值过大,而归一化层直接切断了这一隐患。
第三个改进来自训练算法层面。在训练循环模型时,每个批次(batch)中循环次数T是随机采样的,目的是让模型既能应对少量循环(快速推理),也能利用多次循环(深度推理)。以往的做法是整个批次共用一个循环次数,这就像一桌人只能点同一道菜——有的人吃撑了,有的人没吃饱。Parcae引入了**逐序列深度采样**,即同一个批次里,每条序列可以被分配不同的循环次数,就像每个人各自点菜。实验表明,这一改进能显著减少训练过程中的损失抖动,尤其提升了在低循环次数下的测试性能。
此外,研究团队还纠正了此前一个微妙但重要的采样偏差。在先前的工作中,循环次数T的采样方式实际上是先从分布中采样一个"无梯度步骤数"n,再固定加上一个"有梯度步骤数"μbwd,导致实际的总循环分布被压缩和偏移,并不等于原本希望的目标分布。新方法改为直接从目标分布中采样总循环次数T,再根据T和μbwd推算无梯度步骤数,两者相互解耦,分布得以忠实还原。这一改变对于训练后模型在测试时使用不同循环次数的泛化能力有显著改善,尤其是在使用比训练时更少或更多循环次数的情况下。
**四、和前辈们的对比:Parcae到底强在哪里?**
研究团队从两个维度对Parcae进行了全面评估:一是和同类循环架构的比较,二是和固定深度的标准Transformer的比较。
在与同类循环架构的比较中,Parcae对标的是Geiping等人提出的RDM(循环深度模型)。在100M和350M参数规模下,以完全相同的数据量进行训练,Parcae在保留验证集上的困惑度(一种衡量语言模型预测准确性的指标,数值越低越好,可以理解为模型"猜对下一个词"的能力)分别降低了约6.2%和6.3%,在WikiText基准上分别降低了4.9%和9.1%。更直观的是,Parcae还在Hellaswag、ARC、PIQA、BoolQ、SciQ等多个常识推理下游任务上平均提升了约1.8个百分点的准确率。更重要的是,稳定性对比如同天壤之别:在相同设置下,RDM在多个学习率下无法收敛,而Parcae在从2e-4到1e-3的全部学习率设置下均能稳定训练,对超参数的鲁棒性远超先前方法。
在与固定深度Transformer的比较中,实验覆盖了140M、370M、770M、1.3B四个参数规模,采用完全相同的数据量和超参数(超参数基于Transformer进行调优,Parcae直接沿用,并未另行调参)。在所有规模上,Parcae的验证困惑度均低于同等规模的Transformer,降幅在4.3%到9.2%之间。在Core和Core-Extended两个综合下游评测基准上,Parcae的得分分别比同规模Transformer高出最多2.99分和1.18分。尤其引人注目的是,770M参数的Parcae在Core基准上的得分与1.3B参数的Transformer相当——用大约一半的参数量达到了同等的实际能力水平。如果用"参数效率"来量化(即缩小了多少与下一个更大规模模型之间的性能差距),Parcae在Core基准上的参数效率提升幅度在23.3%到87.5%之间。
**五、循环就是一种新的"扩展轴":计算预算该怎么分配?**
在确认Parcae能在固定参数下超越Transformer之后,研究团队把目光投向了一个更宏观的问题:在给定固定的总计算预算(FLOPs)和固定参数量的情况下,把计算投入到"更多数据"上更好,还是投入到"更多循环次数"上更好?换句话说,这两种"投资方向"的最优比例是什么?
这本质上是在问:循环次数是不是一个独立的、可以规律性预测的扩展维度,就像参数量和数据量那样?
研究团队在140M和370M两个规模上,系统地训练了大量模型,每个模型使用不同的训练循环次数μrec(范围从2到12),同时相应调整训练数据量以保持总FLOPs不变。结果呈现出非常清晰的规律:对于每一个固定的FLOPs预算,存在一个最优的循环次数,在这个循环次数下验证损失最低;增加循环次数的同时减少相应数据量,比单纯增加数据量(固定循环次数为1)能达到更低的损失。这说明循环确实是一个正交的(独立的)扩展轴。
更进一步,研究团队拟合了两条幂律(power law)曲线,分别描述最优循环次数和最优训练数据量如何随FLOPs预算的增加而增长。结果显示,最优循环次数大约按照FLOPs的0.40次方增长(在140M和370M上分别为0.40和0.38,高度一致),最优数据量大约按照FLOPs的0.77到0.78次方增长。这意味着随着计算预算的增加,应该同步增加循环次数和数据量,但数据量应该增长得更快一些(指数0.78对比0.40)。这个发现的重要性在于它的可预测性——你可以依据公式提前规划,而不是靠经验摸索。
研究团队还拟合了一个参数化的预测函数,形式为:预测损失 = E + X × N(μrec)^(-x) + Y × D^(-y),其中N(μrec)是将循环展开后的等效参数量,D是训练数据量。用这个函数预测第五节中那些"留出"模型(参见第四节的实验模型)的验证损失,在140M和370M规模上的预测误差分别仅为1.3%和0.8%,验证了该函数的外推能力。
在下游评测任务上,最优循环策略相比于"只用更多数据"(固定循环次数为1)的策略,在Core和Core-Extended两个综合基准上的得分高出1.2到2.0分,进一步佐证了循环作为独立扩展轴的价值。
**六、测试时也能"越想越准":但有上限,而且上限是可以预测的**
除了训练时扩展FLOPs的规律,研究团队还研究了另一个问题:训练完成后,在测试(推理)阶段让模型多循环几次,能不能让它表现更好?
答案是肯定的,但有一个重要的"但是"——收益是有上限的,而且这个上限与训练时使用的循环次数密切相关。
研究团队把第四节中的四个规模模型(140M、370M、770M、1.3B)在测试阶段使用的循环次数从1一直增加到约μrec的两倍(每个模型训练时的均值循环次数μrec均为8)。结果显示,性能随着测试循环次数的增加而提升,但提升曲线是典型的"饱和型"——一开始提升较快,之后越来越慢,最终几乎停止在一个固定水平附近。这个饱和水平大致对应模型在训练时所使用的最大循环次数,说明训练深度决定了测试时扩展的天花板。
对于这个饱和曲线,研究团队发现一个非常简洁的函数形式能够精确描述它:L(T) = L∞ + Z × exp(–z × T),其中L∞是最终的不可约损失下界,Z和z是两个形状参数,T是测试时的循环次数。这是一个标准的指数衰减函数——性能以指数速度向下界逼近。这个函数形式在所有测试循环次数和所有训练深度配置下都拟合得非常好,平均拟合误差仅为约2.5×10??(140M)和1.8×10??(370M)。
值得一提的是,这种指数衰减的形式与Parcae的动力系统框架之间存在一个耐人寻味的理论呼应:在经典控制理论中,谱范数小于1的稳定离散线性系统的状态范数本身就以指数速度收敛。Parcae通过设计保证了谱范数小于1,而这一保证在理论层面与测试时观察到的指数衰减规律形成了一致。当然,研究团队也坦承,这种联系目前还是推测性的,而非严格证明的。
**七、训练与测试的"统一方程":把两条规律合而为一**
拥有了训练时的扩展规律和测试时的衰减规律之后,研究团队进一步把它们整合成一个统一的预测公式,形式如下:
预测损失 = [训练规律给出的损失下界] + Z × exp(–z × T / μrec)
其中,方括号内的部分由训练规律决定,是当测试循环次数T等于训练均值μrec时预测的损失值;括号外的指数衰减项描述了从初始损失(T很小时)向这个下界逼近的过程;衰减速率被设计为与μrec成反比,即训练时循环次数越多,测试时每增加一次循环的额外收益越小(衰减越慢),这也符合直觉。
用这个统一公式对第四节中那些留出的模型进行验证,在140M和370M规模上预测测试时损失曲线的平均误差分别为0.85%和1.31%。如果直接用模型在T=μrec处的实测损失代替训练规律的预测值(相当于消除训练规律的约1%预测误差),误差进一步降至0.10%到0.17%,说明统一公式中的测试时衰减部分本身是高度准确的,整体误差几乎全部来自训练规律的外推偏差。
这条统一方程的意义在于:给定一个模型的参数规模、训练数据量和训练循环次数,你可以在不实际运行模型的情况下,预测它在任意测试循环次数下的大致性能,从而在设计阶段就优化训练与推理的资源分配决策。
**八、局限与未来:这口锅还能做哪些菜?**
研究团队对这项工作的局限性做出了坦诚的说明。目前所有的扩展规律实验都在140M和370M参数规模下进行,尚未验证这些规律能否平滑地外推到更大的模型和更高的FLOPs预算。此外,当前的循环次数均在个位数到十几次的范围内,对"极端循环"(比如均值循环次数达到几十甚至上百次)的行为还不清楚。在架构层面,目前的A矩阵采用对角负矩阵这一简单形式,未来可以探索全秩参数化、不同的离散化方案以及不同的循环更新规则,以支持更深的循环深度。最后,一个值得关注的实际限制是:随着训练时均值循环次数μrec的增加,在测试时需要更多循环次数才能达到等效质量,这增加了推理延迟,如何在保持质量的同时减少推理时所需循环次数是一个开放的工程挑战。
说到底,这项研究用一个来自工程控制领域的古老理论——线性时不变系统的稳定性分析——为深度学习领域一个长期悬而未决的实际问题给出了清晰的诊断和处方。那口反复翻炒的锅之所以总在烧穿,根本原因就是"放大器"没有被约束住;而Parcae做的事情,就是在锅底装了一个永远不会超温的调节器。
归根结底,这项工作告诉我们:扩展AI能力不一定总是要买更大的锅,有时候改造一下翻炒方式,在有限的厨房里也能做出令人满意的大餐。对于那些资源受限但又希望部署更强AI能力的场景——边缘设备、移动端应用、低功耗服务器——这个方向提供了一条真实可行的技术路径。
有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2604.12946在arXiv平台上查阅完整原文。
Q&A
Q1:Parcae架构为什么比普通循环架构训练更稳定?
A:Parcae把循环过程中的"状态转移矩阵"A设计成负对角矩阵的离散化形式,从数学上保证了矩阵的谱范数始终严格小于1。谱范数小于1意味着每次循环信息不会被放大,只会逐渐收敛,避免了状态爆炸。同时引入输入归一化层和逐序列深度采样,进一步减少了训练中的损失抖动,整体对超参数的鲁棒性远超先前方法。
Q2:循环架构和普通增加模型层数有什么本质区别?
A:普通增加层数意味着模型参数量增加,存储和部署成本随之上升。循环架构是用同一组参数反复执行多次,参数量不变但计算量增加。因此循环架构更适合在有限内存或低功耗设备上部署,而不需要把完整的多层模型全部加载进内存。
Q3:Parcae的测试时循环次数越多效果是否会一直提升?
A:不会无限提升。研究发现测试时增加循环次数的收益会逐渐饱和,饱和水平大致对应训练时所用的最大循环次数。曲线符合指数衰减规律,即前几次循环收益显著,之后边际收益迅速下降,最终趋近于一个由训练深度决定的性能下界。