论文地址:https://arxiv.org/pdf/2402.18294
这篇文章介绍了一种全新的全身类人机器人行走学习方法,通过对抗性运动先验(AMP)框架,使机器人能够模仿人类的行走方式。
1. **研究背景**:
- 类人机器人在执行复杂任务时面临诸多挑战,尤其是设计复杂的奖励函数和训练整个系统。
- 传统机器人控制算法依赖于精确的数学模型和预定义的运动规划,在未知或动态变化的环境中表现不佳。
- 强化学习在腿部机器人控制中取得了显著进展,但在类人机器人领域的应用仍不充分。
2. **研究方法**:
- 采用AMP框架,通过对抗性训练使机器人能够模仿人类行走。判别器输出状态转换的相似性,指导机器人生成类似人类的运动。
- 设计了端到端的强化学习算法,结合协调任务奖励,包括命令奖励、周期性奖励和正则化奖励,确保机器人能够平滑、安全地移动。
- 在4096个Isaac Gym模拟环境中并行训练策略,使用Proximal Policy Optimization(PPO)算法。
3. **实验设计**:
- 通过交叉验证和反馈微调,评估模型在模拟和真实环境中的有效性。使用Webots和Isaac Gym作为仿真平台,进行全面的交叉验证实验。
- 在真实机器人实验中,测试机器人在外部干扰下的鲁棒行走性能,展示其“直膝”和“脚跟到脚趾”的跑跳步态。
4. **结果与分析**:
- 实验结果显示,Adam机器人在复杂步态任务中的表现与人类相当,首次实现了类人机器人的“脚跟到脚趾”跑跳步态。
- 通过引入对抗性运动先验和多种奖励函数,成功解决了传统强化学习中复杂的奖励函数设置问题,减少了Sim2Real差距,提高了学习能力和适应性。
5. **总体结论**:
- 该框架在类人机器人研究领域具有巨大的潜力,未来计划集成更多的传感器,使Adam能够在综合感知条件下模仿人类运动。
- 研究展示了如何通过创新的对抗性运动先验框架和强化学习方法,使类人机器人能够模仿人类的行走方式,并在复杂环境中表现出高度的鲁棒性和适应性。
论文初读: