您的位置:首页 > 汽车 > 新车 > O2O:Offline–Online Actor–Critic

O2O:Offline–Online Actor–Critic

2024/10/31 9:51:12 来源:https://blog.csdn.net/wdnmdwsmsa/article/details/139509362  浏览:    关键词:O2O:Offline–Online Actor–Critic

IEEE TAI 2024
paper
加权TD3_BC

Method

离线阶段,算法基于TD3_BC,同时加上基于Q函数的权重函数,一定程度上避免了过估计
J o f f l i n e ( θ ) = E ( s , a ) ∼ B [ ζ Q ϕ ( s , π θ ( s ) ) ] − ∥ π θ ( s ) − a ∥ 2 \begin{aligned}J_{\mathrm{offline}}(\boldsymbol{\theta})&=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))\right]-\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^{2}\end{aligned} Joffline(θ)=E(s,a)B[ζQϕ(s,πθ(s))]πθ(s)a2
其中权重 ζ \zeta ζ与Q函数关系如下,
ζ = α 1 m ∑ ( s i , a i ) ∈ B ‾ ∣ Q ( s i , a i ) ∣ \zeta=\frac{\alpha}{\frac{1}{m}\sum_{(s_{i},\boldsymbol{a}_{i})\in\overline{\mathcal{B}}}|Q(\boldsymbol{s}_{i},\boldsymbol{a}_{i})|} ζ=m1(si,ai)BQ(si,ai)α

在线阶段为了防止策略出现Performance drop, 对策略优化j保留BC项。如下::
J o n l i n e ( θ ) = E ( s , a ) ∼ B [ ζ Q ϕ ( s , π θ ( s ) ) ] − λ ∥ π θ ( s ) − a ∥ 2 \begin{aligned}J_{\mathrm{online}}(\boldsymbol{\theta})&=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}\left(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s})\right)\right]-\lambda\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^{2}\end{aligned} Jonline(θ)=E(s,a)B[ζQϕ(s,πθ(s))]λπθ(s)a2

价值函数通过最小化均方bellman误差:
L ( ϕ ) = E ( s , a ) ∼ B [ ( y ˉ − Q ϕ ( s , a ) ) 2 ] ( 11 ) y ˉ = r + min ⁡ i = 1 , 2 Q ϕ ˉ i ( s , ′ a ′ ∼ π θ ˉ ) . L(\phi)=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\left(\bar{y}-Q_{\boldsymbol{\phi}}(\boldsymbol{s},\boldsymbol{a})\right)^{2}\right]\quad(11)\\\bar{y}=r+\min_{i=1,2}Q_{\bar{\boldsymbol{\phi}}_{i}}(s,^{\prime}\boldsymbol{a}^{\prime}\sim\pi_{\bar{\boldsymbol{\theta}}}). L(ϕ)=E(s,a)B[(yˉQϕ(s,a))2](11)yˉ=r+i=1,2minQϕˉi(s,aπθˉ).

伪代码

在这里插入图片描述

结果

在这里插入图片描述

对比的方法有点老,不知道和最近的一些Off2On、UPQ、E2O如何

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com