您的位置:首页 > 游戏 > 手游 > Policy-Based Reinforcement Learning(1)

Policy-Based Reinforcement Learning(1)

2025/1/8 7:42:56 来源:https://blog.csdn.net/zhangsj1007/article/details/139581338  浏览:    关键词:Policy-Based Reinforcement Learning(1)

之前提到过Discount Return:

U_t = R_t + \gamma R_{t+1} + \gamma ^2R_{t+2} + \gamma ^3 R_{t+1} + ...

Action-value Function :

Q_ \pi (s_t,a_t) = E[U_t|S_t = s_t, A_t = a_t]

State-value Function:

V_\pi(s_t) = E_A[Q_\pi (s_t,A)]  (这里将action A积分掉)这里如果策略函数\pi很好,V_\pi就会很大;反之策略函数不好,V_\pi就会很小。

对于离散类型:V_\pi (s_t) = E_A[Q_\pi (s_t,A)] = \sum_{a}^{}\pi (a|s_t) * Q_\pi (s_t, a)

用神经网络\pi (a|s_t;\theta )近似策略\pi (a|s_t)

V_\pi (s_t;\theta ) = \sum_{a}^{}\pi (a|s_t;\theta ) * Q_\pi (s_t, a)

即 学习参数\theta,使得J(\theta ) =E_S[V(S;\theta )]越来越大。这里使用梯度上升的方法,对于一个可观测状态s,更新\theta \leftarrow \theta + \beta \frac{\partial V(s;\theta )}{\partial \theta } 

这里\frac{\partial V(s;\theta )}{\partial \theta }称为策略梯度(Policy Gradient)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com