1024层网络让强化学习性能飙升50倍,NeurIPS 2025最佳论文揭示深度scaling的力量

作者:CoovallyAIHub日期:2025/12/1

在自然语言处理和计算机视觉领域,模型规模的扩大已经催生了无数突破,但强化学习(RL)领域的类似进展却一直难以实现。大多数RL研究仍在使用2-5层的浅层网络架构,而如今的LLaMA和Stable Diffusion等模型早已拥有数百层。

NeurIPS 2025最佳论文奖由普林斯顿大学与OpenAI的合作研究,他们成功将RL网络深度扩展至1024层,在自监督强化学习任务上实现了性能2-50倍的提升。这项研究不仅证明了深度scaling对RL的有效性,还观察到了与模型规模相关的“突现现象”——当网络达到特定深度阈值时,智能体会突然学会全新的技能和行为模式。

项目代码:

wang-kevin3290.github.io/scaling-crl…

论文链接:

arxiv.org/pdf/2503.14…

这项工作的主要贡献是展示了一种将这些构建模块集成到单个RL方法中的方法,表现出强大的可扩展性:

  • 经验可扩展性:我们观察到显著的性能提升,在一半的环境中超过20倍,并且优于其他标准的目标条件基线方法。这些性能增益对应于随着规模扩大而出现的定性上不同的策略。
  • 网络架构中的深度扩展:虽然许多先前的RL工作主要关注增加网络宽度,但他们通常在扩展深度时报告有限甚至负回报。相比之下,我们的方法解锁了沿深度轴扩展的能力,产生的性能改进超过了仅扩展宽度所带来的改进。
  • 经验分析:我们对扩展方法中的关键组件进行了广泛分析,揭示了关键因素并提供了新的见解。

实验

  • 实验设置

所有RL实验都使用JaxGCRL代码库,它基于Brax和MJX促进快速在线GCRL实验。使用的具体环境是一系列运动、导航和机器人操作任务,详情见附录B。我们使用稀疏奖励设置,仅当智能体在目标附近时r=1。对于评估,我们测量智能体接近目标的时间步数(共1000步)。当将算法的性能报告为单个数字时,我们计算训练最后五个周期的平均得分。

我们采用了ResNet架构中的残差连接,每个残差块由四个重复单元组成,每个单元包括一个全连接层、一个层归一化层和Swish激活函数。我们在残差块的最终激活之后立即应用残差连接,如图2所示。在本文中,我们将网络的深度定义为架构中所有残差块的全连接层总数。

  • 对比RL中的深度扩展

我们首先研究增加网络深度如何提高性能。JaxGCRL基准测试和相关先前工作都使用深度为4的MLP,因此我们将其作为基线。相比之下,我们将研究深度为8、16、32和64的网络。图1中的结果表明,更深的网络在多种运动、导航和操作任务中实现了显著的性能改进。与先前工作中典型的4层模型相比,更深的网络在机器人操作任务中实现了2-5倍的增益,在长视野迷宫任务(如Ant U4-Maze和Ant U5-Maze)中实现了超过20倍的增益,在类人机器人任务中实现了超过50倍的增益。深度达到64的完整性能提升表格在表1中提供。

在图12中,我们展示了相同10个环境的结果,但与SAC、SAC+HER、TD3+HER、GCBC和GCSL进行了比较。扩展CRL带来了实质性的性能改进,在10个任务中的8个任务中优于所有其他基线方法。唯一的例外是SAC在Humanoid Maze环境中,早期表现出更高的样本效率;然而,扩展后的CRL最终达到了可比的性能。这些结果强调了扩展CRL算法的深度能够在目标条件强化学习中实现最先进的性能。

  • 对CRL扩展重要的因素

宽度vs深度。过去的文献表明,扩展网络宽度可能是有效的。在图4中,我们发现扩展宽度在我们的实验中也有帮助:更宽的网络(深度保持为4) consistently 优于更窄的网络。然而,深度似乎是一个更有效的扩展轴:仅仅将深度加倍到8(宽度保持为256)在所有三个环境中都优于最宽的网络。深度扩展的优势在Humanoid环境(观察维度268)中最为明显,其次是Ant Big Maze(维度29)和Arm Push Easy(维度17),这表明比较收益可能随着观察维度的增加而增加。另外请注意,参数数量随宽度线性增长,但随深度二次增长。作为比较,一个具有4个MLP层和2048个隐藏单元的网络大约有3500万个参数,而一个深度为32、隐藏单元为256的网络只有大约200万个参数。因此,在固定的FLOP计算预算或特定内存约束下运行时,深度扩展可能是提高网络性能的更计算高效的方法。

扩展行动者vs评论家网络。为了研究行动者和评论家网络中扩展的作用,图6展示了三个环境中不同行动者和评论家深度组合的最终性能。先前的工作侧重于扩展评论家网络,发现扩展行动者会降低性能。相比之下,虽然我们确实发现在三个环境中的两个(Humanoid, Arm Push Easy)中扩展评论家影响更大,但我们的方法受益于联合扩展行动者网络,其中一个环境(Ant Big Maze)显示行动者扩展的影响更大。因此,我们的方法表明,扩展行动者和评论家网络可以在提高性能方面发挥互补作用。

深度网络解锁批大小扩展。放大批大小在机器学习的其他领域已经得到很好的确立。然而,这种方法在强化学习(RL)中并未有效转化,先前的工作甚至报告了对基于值的RL的负面影响。确实,在我们的实验中,仅仅为原始CRL网络增加批大小仅产生边际性能差异(图7,左上角)。

  • 部分经验“缝合”能力

在泛化实验中,训练只使用最多3个单位距离的起始-目标对,但测试要求解决6个单位距离的任务。结果显示,深度4网络泛化能力有限,深度16网络取得中等成功,而深度64网络表现出色,表明更深网络能够将短距离经验“缝合”起来解决长距离任务。

对具身智能的启示

这项NeurIPS最佳论文的研究对正在兴起的具身智能领域具有重要启示:

  • 自主技能获取

在具身智能应用中,为每个任务设计奖励函数是不现实的。自监督RL使智能体能够通过自主探索获得通用技能,而不需要针对每个任务的精细奖励设计。

  • 复杂行为涌现

深层网络催生的emergent behaviors表明,通过scaling可能自然产生解决复杂物理任务所需的基本技能,如平衡、导航和操作等。

  • 适应高维空间

具身智能通常涉及高维观察空间(如视觉、本体感觉),而研究表明深度scaling在高维环境中益处更加明显。

  • 从交互中学习

与主要依赖现有数据集的监督学习不同,RL方法通过联合优化模型和数据收集过程,解决了“数据从哪里来”的根本问题。

结语

这项NeurIPS 2025最佳论文的研究打破了“强化学习难以从模型规模中受益”的传统观念,证明了深度scaling是自监督RL的强大催化剂。当大多数研究仍在小心翼翼地增加网络宽度时,这项工作勇敢地向深度维度探索,最终获得了丰厚的回报。

获奖意义:该研究荣获NeurIPS最佳论文奖,标志着强化学习scaling研究正式进入主流AI研究视野,为未来大模型时代的RL研究奠定了坚实基础。

对于具身智能领域,这项工作指出了一个有前景的方向:通过自监督RL与深度scaling的结合,可能催生能够通过自主探索获得通用物理理解能力的具身智能体。虽然前路依然漫长,但这无疑是向着能够自行训练大型模型的RL系统迈出的坚实一步。

这项研究不仅提供了具体的技术方案,更重要的是为整个领域的scaling探索打开了新的思路——有时候,突破就隐藏在我们尚未充分探索的维度中。


1024层网络让强化学习性能飙升50倍,NeurIPS 2025最佳论文揭示深度scaling的力量》 是转载文章,点击查看原文


相关推荐


Scala 安装及环境配置
froginwe112025/11/28

Scala 安装及环境配置 引言 Scala 是一门多范式编程语言,它可以无缝地与 Java 代码混合,同时拥有函数式编程的特性。本文将详细介绍 Scala 的安装过程以及环境配置,帮助您快速上手 Scala 开发。 Scala 安装 1. 下载 Scala 首先,您需要从 Scala 官方网站 下载 Scala 的安装包。根据您的操作系统选择合适的版本进行下载。 2. 安装 Scala 以下是不同操作系统的安装步骤: Windows 双击下载的安装包,开始安装。 选


推荐 5 个 yyds 的 Claude Skills 开源项目。
逛逛GitHub2025/11/26

前段时间,Anthropic 推出了 Claude Skills 能力。 这是一种模块化能力扩展机制。有了它你不就用给 AI 重复解释了。 你可以把所有想让 Claude 吸取的经验都写到一个 Skill.md 文件里面。这个文件可以理解为是一份详细的指令说明书、可执行的脚本或相关资源,专门用于完成某项特定任务 。感兴趣可以看看下面这个文章,有详细描述。 开源地址:https://www.claude.com/blog/skills 比如你搞了一个 Skill.md 文件,里面放了 AI 生


Linux——web服务介绍和nginx编译安装
不想画图2025/11/24

文章目录 前言一、web服务概念1、web概念2、web特点3、B/S架构模型4、web 请求与响应过程5、静态资源与动态资源6、总结 二、http和https协议1、http和https的区别2、https握手流程3、http状态码3.1、汇总说明3.2、详细状态码说明3.3 总结 4、常用http状态码 三、Nginx概念1、nginx介绍2、nginx和apache差异3、nginx进程结构3.1、web请求处理机制3.2、nginx主进程和工作流的调用流程3.3、工作进程


力扣日刷251120
倦王2025/11/22

今天跟女朋友打了一会三角洲,现在才开始做题,争取也完成3道以上吧哈哈哈哈 第一题: 这一题,我先看了题解,题解中暴力求解的办法就是把每次遇到的指针(head)都加入到一个set()当中,然后循环体head,当head非空时,进行一个判断,如果head在set中出现过就回Ture,反之就False。下面是官方题解: class Solution: def hasCycle(self, head: ListNode) -> bool: seen = set()


Swift6 @retroactive:Swift 的重复协议遵循陷阱
RickeyBoy2025/11/20

欢迎大家给我点个 star!Github: RickeyBoy 背景:一个看似简单的 bug App 内有一个电话号码输入界面,在使用时用户需要从中选择注册电话对应的国家,以获取正确的电话区号前缀(比如中国是 +86,英国是 +44 等)。 Step 1:入口Step 2:缺少区号期望结果 这是一个看似很简单的 bug,无非就是写 UI 的时候漏掉了区号,那么把对应字段拼上去就行了嘛。不过一番调查之后发现事情没有那么简单。 列表是一个公用组件,我们需要在列表中显示


如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
机器之心2025/11/19

近来,世界模型(World Model)很火。多个 AI 实验室纷纷展示出令人惊艳的 Demo:仅凭一张图片甚至一段文字,就能生成一个可交互、可探索的 3D 世界。这些演示当然很是炫酷,它们展现了 AI 强大的生成能力。 但一个关键问题随之而来:这些由 AI 生成的世界中,绝大部分事物都是模型想象和虚构的。 如果我们不满足于「创造」一个虚拟世界,而是想把我们当下生活的这个真实世界(比如我们的家、办公室、工厂和城市)完整地变成一个可交互、可计算的 3D 世界呢? 这正是如视(Realsee)想要解


pytest1-接口自动化测试场景
文人sec2025/11/17

课程:B站大学 记录python学习,直到学会基本的爬虫,使用python搭建接口自动化测试,后续进阶UI自动化测试 接口自动化测试 接口自动化测试的场景测试金字塔模型自动化测试前需要思考什么?Pytest是什么?Pytest 有哪些格式要求?在pycharm下安装pytestpytest知识点测试用例示例类级别的用例示例断言测试装置介绍参数化参数化测试函数使用Mark:标记测试用例Skip:使用场景pytest命令运行测试用例文件pytest中执行顺序如何调整pytest中py文件执


Next.js第五章(动态路由)
小满zs2025/11/16

动态路由 动态路由是指在路由中使用方括号[]来定义路由参数,例如/blog/[id],其中[id]就是动态路由参数,因为在某些需求下,我们需要根据不同的id来显示不同的页面内容,例如商品详情页,文章详情页等。 基本用法[slug] 使用动态路由只需要在文件夹名加上方括号[]即可,例如[id],[params]等,名字可以自定义。 来看demo: 我们在app/shop目录下创建一个[id]目录 //app/shop/[id]/page.tsx export default function Pa


基于脚手架微服务的视频点播系统-脚手架开发部分(完结)elasticsearch与libcurl的简单使用与二次封装及bug修复
加班敲代码的Plana2025/11/15

基于脚手架微服务的视频点播系统-脚手架开发部分elasticsearch与libcurl的简单使用与二次封装及bug修复-完结 1.ElasticClient的使用1.1ES检索原理正排索引倒排索引 1.2ES核心概念1.2.1索引(index)1.2.2类型(Field)1.2.3字段(Field)1.2.4映射(mapping)1.2.5文档(document) 1.3 Kibana访问es进行测试1.3.1创建索引1.3.2新增数据1.3.3查看并搜索数据1.3.4删除索引


qinkun的缓存机制也有弊端,建议官方个参数控制
石小石Orz2025/11/14

公司前端基于qiankun架构,主应用通过qiankun加载子应用,子应用也可能通过qiankun继续加载子应用,反复套娃。经过测试,不断打开子应用后,会导致内存不断上上。通过快照分析,发现内存升高的元凶是qiankun内置的# import-html-entry。 import-html-entry 的作用是什么 import-html-entry 是 qiankun / single-spa 微前端生态的核心模块之一,用来: 加载远程 HTML 入口文件(entry HTML),并提取出其中

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2025 聚合阅读