项目地址:RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands
RP1M 数据集特别是为了研究双手灵巧机械手在钢琴演奏时的动态双手操控。该数据集包含了大约 100 万条专家级别的双手钢琴演奏动作轨迹,覆盖了大约 2000 首音乐作品。这些专家轨迹是通过为每首歌曲训练一个强化学习(RL)代理,并使用不同的随机种子将每个策略回放 500 次来收集的。该方法不需要任何人类演示或者指法注释,仅通过 MIDI 文件,机器人手指可以自动发现合适的指法。
在学习钢琴演奏时,代理不仅要最大化按键奖励,还要最小化手指移动距离。这通过一个约束优化问题来实现,即最小化累积移动距离,这个问题可以看作是一个最优传输问题。通过这种方式,代理发现的指法与人类演奏者的注释有所不同,但在某些情况下,由于机器人手的不同形态,人类注释的指法对机器人手来说并不适用。
该方法的性能与需要人类注释指法的方法相当,并且在没有指法信息的情况下明显优于后者。该方法生成的手动动作非常动态,能够适应不同形态的机器人手,甚至其他机器人平台
论文初读: