《Natural Actor-Critic》
摘要
本文提出了一种新型的强化学习架构,即自然演员-评论家(Natural Actor-Critic)。The actor 的更新通过使用Amari的自然梯度方法进行策略梯度的随机估计来实现,而评论家则通过线性回归同时获得自然策略梯度和价值函数的附加参数。本文展示了使用自然策略梯度的actor改进特别有吸引力,因为这些梯度与所选策略表示的坐标框架无关,并且比常规策略梯度更高效。评论家利用了以策略梯度兼容的函数逼近实现的特殊基函数参数化(basis function parameterization)。本文证明了多个著名的强化学习方法,如原始的演员-评论家和Bradtke的线性二次Q学习,实际上是自然演员-评论家算法的特例。实证评估表明,与之前的方法相比,该技术非常有效,并且证明了它们在仿人机器人手臂上学习控制的applicability。
1 引言
基于价值函数近似的强化学习算法在 discrete lookup table parameterization 中已经取得了巨大成功。然而,当应用于连续函数近似时,这些算法中的许多都无法泛化,并且很少能获得收敛保证[24_ Sutton_Reinforcement_Learning]。这一问题的主要原因可归结于大多数方法采用的贪婪(greedy)或ε-贪婪(ε-greedy)策略更新机制——当结合近似价值函数使用时,此类更新无法保证策略的改进[8_Neuro-dynamic_programming]。在贪婪更新过程中,价值函数中的微小误差可能导致策略的剧烈变化,而这种策略变化又会引发价值函数的显著波动。若反复进行这一过程,算法可能陷入振荡或发散。即使在简单的示例系统中,许多知名的贪婪强化学习算法也会表现出此类不良行为[6_Gradient_descent_for_RL, 8_Neuro-dynamic_programming]。
作为贪婪强化学习的替代方案,策略梯度方法(Policy Gradient Methods)被提出。