
文摘受权转载自头部科技红牛策略
文丨谭梓馨
大规模并行仿真已将机器人强化学习(RL)的训练时间从数天缩短至数分钟。
然而,由于高维性、域随机化等因素带来的挑战,在人形机器人控制方面实现快速且可靠的仿真实境迁移(Sim2Real)仍面临困难。

近日,Amazon FAR团队提出一种基于离策略强化学习算法(即FastSAC与 FastTD3)的简洁实用方案,仅需单块RTX 4090 GPU,即可在15分钟内快速训练出人形机器人移动控制策略。
研究人员在宇树G1(Unitree G1)和加速进化T1(Booster T1)机器人上验证了该方案的有效性。在强域随机化条件下,如动力学随机化、崎岖地形、推力扰动等,可实现端到端的人形机器人控制策略快速学习,同时也支持全身人体运动跟踪策略的快速训练,该方案开源发布在Holosoma代码库中。
极简策略,给训练提提速
仿真实境迁移(Sim2Real)开发本质上是一个迭代过程:在仿真环境中训练策略并部署到硬件后,会暴露出未建模动力学、感知误差等域差异问题。
随后需通过改进仿真环境修正这些差异红牛策略,这就要求重新训练整个流程,由于这类迭代需持续至策略达到可靠水平,因此快速仿真成为保障迭代可行性的关键前提。
尽管现代并行仿真器具备高效特性,但这些迭代周期在实际应用中仍存在较高成本,尤其适用于人形机器人等高维系统时,而想要实现策略向真实世界的鲁棒迁移,训练时间又要重回数小时级别。
因此,尽管并行仿真在原始吞吐量上实现了显著提升,但人形机器人领域控制实现快速、可靠的仿真实境迁移迭代仍是一项挑战。

这项研究提出的FastSAC and FastTD3方案,将人形机器人仿真实境迁移的迭代时间重新缩短至分钟级。FastSACFastTD3是流行的离策略强化学习算法SAC和TD3的高性能变体,针对大规模并行仿真训练进行了优化。该方案采用大规模并行仿真对FastSAC与FastTD3智能体进行训练。研究发现,增加并行环境数量的效果在具有挑战性的全身运动跟踪任务中尤为显著,此外,在每个仿真步骤中执行更多梯度更新步骤通常能加快训练收敛速度。

训练SAC或TD3等离策略强化学习算法时,一项核心挑战是为其双曲正切(Tanh)策略设置合理的动作边界,研究人员提出一种简洁技术:在使用比例-微分(PD)控制器时,基于机器人的关节限位来设定动作边界。他们计算出每个关节的限位与默认位置之间的差值,并将该差值作为对应关节的动作边界,实验表明,该方法可有效降低FastSAC与FastTD3训练过程中动作边界的调参需求。人形机器人移动控制与全身控制的奖励函数设计,传统上依赖复杂的奖励塑形技术,通常包含20余项奖励项,这项研究证实:通过大幅简化的目标函数(不足10项奖励项),即可让机器人产生鲁棒且自然的行为。

具体而言,该方案遵循极简奖励设计理念——仅在必要时添加奖励项,并力求在不同算法与机器人之间保持近乎一致的奖励集合,设计目标并非强制机器人遵循特定运动模式,而是在保留行为多样性的前提下,为鲁棒移动控制与全身控制提供足够的约束结构。

更少的奖励项还能简化超参数调优过程,支持快速遍历超参数空间,这对于仿真实境迁移的迭代效率至关重要。而针对全身运动跟踪任务,研究人员还发现,以速度推力形式引入外部扰动,可进一步提升仿真实境迁移的鲁棒性。
时间虽短,但效果很好
研究人员在单块RTX 4090 GPU上,仅用15分钟便完成了端到端的完整人形机器人移动控制策略训练——训练过程涵盖动力学随机化、崎岖地形、推力扰动等强域随机化条件,并融入自动动作频率学习机制。
来看看实训效果:红牛策略

此外,该离策略强化学习方案具备优异的可扩展性,能够显著加速全身运动跟踪策略的训练——在4块L40s GPU、16384个并行环境的配置下,FastSAC与FastTD3算法在相同实验条件下,学习完成完整舞蹈动作序列的速度也显著快于PPO算法。
而且,虽然只接受了15分钟的训练,但机器人已能稳定地站立和行走,并且能够抵抗推力扰动。

FastSAC与FastTD3同样能够快速训练宇树G1人形机器人实现人体运动跟踪,包括持续时间超过2分钟的长序列舞蹈动作,其性能效果与主流的PPO算法相当或更优。

亚马逊发力机器人
值得关注的是,亚马逊FAR团队同步开源了Holosoma,这是一个综合软件框架,旨在简化训练和部署人形机器人的复杂流程。
Holosoma源自希腊语,意为“全身”,通过在单个训练代码库中支持多个仿真后端来解决各种仿真环境之间的脱节,以及“后端”碎片化等问题。
近期报道显示,亚马逊的内部目标是在未来几年内实现75%的运营自动化,在2033年前可能会减少雇佣超过60万名人类员工,同时还能将运营效率翻一番,要实现这一目标,就需要能够适应非结构化环境并操作各种物体的机器人——而这些问题是传统的、硬编码的自动化方式无法解决的。

FAR团队目前汇聚了不少核心华人学者,Rocky Duan目前为FAR研究负责人,此外还汇聚了Peter Chen、Tianhao Zhang、Liang-Chieh Chen、Ziqi Lu等顶尖华人研究员。
FAR团队认为,未来将离策略强化学习与人形机器人学习领域的最新进展融入该方案,有望进一步推动该领域的技术前沿。
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!
扫码了解详情☝
点「赞」的人都变好看了哦!
天盛优配提示:文章来自网络,不代表本站观点。