1024层网络让强化学习性能飙升50倍，NeurIPS 2025最佳论文揭示深度scaling的力量

在自然语言处理和计算机视觉领域，模型规模的扩大已经催生了无数突破，但强化学习（RL）领域的类似进展却一直难以实现。大多数RL研究仍在使用2-5层的浅层网络架构，而如今的LLaMA和Stable Diffusion等模型早已拥有数百层。

NeurIPS 2025最佳论文奖由普林斯顿大学与OpenAI的合作研究，他们成功将RL网络深度扩展至1024层，在自监督强化学习任务上实现了性能2-50倍的提升。这项研究不仅证明了深度scaling对RL的有效性，还观察到了与模型规模相关的“突现现象”——当网络达到特定深度阈值时，智能体会突然学会全新的技能和行为模式。

项目代码：

wang-kevin3290.github.io/scaling-crl…

论文链接：

arxiv.org/pdf/2503.14…

这项工作的主要贡献是展示了一种将这些构建模块集成到单个RL方法中的方法，表现出强大的可扩展性：

经验可扩展性：我们观察到显著的性能提升，在一半的环境中超过20倍，并且优于其他标准的目标条件基线方法。这些性能增益对应于随着规模扩大而出现的定性上不同的策略。
网络架构中的深度扩展：虽然许多先前的RL工作主要关注增加网络宽度，但他们通常在扩展深度时报告有限甚至负回报。相比之下，我们的方法解锁了沿深度轴扩展的能力，产生的性能改进超过了仅扩展宽度所带来的改进。
经验分析：我们对扩展方法中的关键组件进行了广泛分析，揭示了关键因素并提供了新的见解。

实验

实验设置

所有RL实验都使用JaxGCRL代码库，它基于Brax和MJX促进快速在线GCRL实验。使用的具体环境是一系列运动、导航和机器人操作任务，详情见附录B。我们使用稀疏奖励设置，仅当智能体在目标附近时r=1。对于评估，我们测量智能体接近目标的时间步数（共1000步）。当将算法的性能报告为单个数字时，我们计算训练最后五个周期的平均得分。

我们采用了ResNet架构中的残差连接，每个残差块由四个重复单元组成，每个单元包括一个全连接层、一个层归一化层和Swish激活函数。我们在残差块的最终激活之后立即应用残差连接，如图2所示。在本文中，我们将网络的深度定义为架构中所有残差块的全连接层总数。

对比RL中的深度扩展

我们首先研究增加网络深度如何提高性能。JaxGCRL基准测试和相关先前工作都使用深度为4的MLP，因此我们将其作为基线。相比之下，我们将研究深度为8、16、32和64的网络。图1中的结果表明，更深的网络在多种运动、导航和操作任务中实现了显著的性能改进。与先前工作中典型的4层模型相比，更深的网络在机器人操作任务中实现了2-5倍的增益，在长视野迷宫任务（如Ant U4-Maze和Ant U5-Maze）中实现了超过20倍的增益，在类人机器人任务中实现了超过50倍的增益。深度达到64的完整性能提升表格在表1中提供。

在图12中，我们展示了相同10个环境的结果，但与SAC、SAC+HER、TD3+HER、GCBC和GCSL进行了比较。扩展CRL带来了实质性的性能改进，在10个任务中的8个任务中优于所有其他基线方法。唯一的例外是SAC在Humanoid Maze环境中，早期表现出更高的样本效率；然而，扩展后的CRL最终达到了可比的性能。这些结果强调了扩展CRL算法的深度能够在目标条件强化学习中实现最先进的性能。

对CRL扩展重要的因素

宽度vs深度。过去的文献表明，扩展网络宽度可能是有效的。在图4中，我们发现扩展宽度在我们的实验中也有帮助：更宽的网络（深度保持为4） consistently 优于更窄的网络。然而，深度似乎是一个更有效的扩展轴：仅仅将深度加倍到8（宽度保持为256）在所有三个环境中都优于最宽的网络。深度扩展的优势在Humanoid环境（观察维度268）中最为明显，其次是Ant Big Maze（维度29）和Arm Push Easy（维度17），这表明比较收益可能随着观察维度的增加而增加。另外请注意，参数数量随宽度线性增长，但随深度二次增长。作为比较，一个具有4个MLP层和2048个隐藏单元的网络大约有3500万个参数，而一个深度为32、隐藏单元为256的网络只有大约200万个参数。因此，在固定的FLOP计算预算或特定内存约束下运行时，深度扩展可能是提高网络性能的更计算高效的方法。

扩展行动者vs评论家网络。为了研究行动者和评论家网络中扩展的作用，图6展示了三个环境中不同行动者和评论家深度组合的最终性能。先前的工作侧重于扩展评论家网络，发现扩展行动者会降低性能。相比之下，虽然我们确实发现在三个环境中的两个（Humanoid, Arm Push Easy）中扩展评论家影响更大，但我们的方法受益于联合扩展行动者网络，其中一个环境（Ant Big Maze）显示行动者扩展的影响更大。因此，我们的方法表明，扩展行动者和评论家网络可以在提高性能方面发挥互补作用。

深度网络解锁批大小扩展。放大批大小在机器学习的其他领域已经得到很好的确立。然而，这种方法在强化学习（RL）中并未有效转化，先前的工作甚至报告了对基于值的RL的负面影响。确实，在我们的实验中，仅仅为原始CRL网络增加批大小仅产生边际性能差异（图7，左上角）。

部分经验“缝合”能力

在泛化实验中，训练只使用最多3个单位距离的起始-目标对，但测试要求解决6个单位距离的任务。结果显示，深度4网络泛化能力有限，深度16网络取得中等成功，而深度64网络表现出色，表明更深网络能够将短距离经验“缝合”起来解决长距离任务。

对具身智能的启示

这项NeurIPS最佳论文的研究对正在兴起的具身智能领域具有重要启示：

自主技能获取

在具身智能应用中，为每个任务设计奖励函数是不现实的。自监督RL使智能体能够通过自主探索获得通用技能，而不需要针对每个任务的精细奖励设计。

复杂行为涌现

深层网络催生的emergent behaviors表明，通过scaling可能自然产生解决复杂物理任务所需的基本技能，如平衡、导航和操作等。

适应高维空间

具身智能通常涉及高维观察空间（如视觉、本体感觉），而研究表明深度scaling在高维环境中益处更加明显。

从交互中学习

与主要依赖现有数据集的监督学习不同，RL方法通过联合优化模型和数据收集过程，解决了“数据从哪里来”的根本问题。

结语

这项NeurIPS 2025最佳论文的研究打破了“强化学习难以从模型规模中受益”的传统观念，证明了深度scaling是自监督RL的强大催化剂。当大多数研究仍在小心翼翼地增加网络宽度时，这项工作勇敢地向深度维度探索，最终获得了丰厚的回报。

获奖意义：该研究荣获NeurIPS最佳论文奖，标志着强化学习scaling研究正式进入主流AI研究视野，为未来大模型时代的RL研究奠定了坚实基础。

对于具身智能领域，这项工作指出了一个有前景的方向：通过自监督RL与深度scaling的结合，可能催生能够通过自主探索获得通用物理理解能力的具身智能体。虽然前路依然漫长，但这无疑是向着能够自行训练大型模型的RL系统迈出的坚实一步。

这项研究不仅提供了具体的技术方案，更重要的是为整个领域的scaling探索打开了新的思路——有时候，突破就隐藏在我们尚未充分探索的维度中。

《1024层网络让强化学习性能飙升50倍，NeurIPS 2025最佳论文揭示深度scaling的力量》是转载文章，点击查看原文。