O2O:Offline–Online Actor–Critic

2025/10/20 15:42:45 来源：https://blog.csdn.net/wdnmdwsmsa/article/details/139509362 浏览: 次关键词：O2O:Offline–Online Actor–Critic

IEEE TAI 2024
paper
加权TD3_BC

Method

离线阶段，算法基于TD3_BC，同时加上基于Q函数的权重函数，一定程度上避免了过估计
$\begin{aligned}J_{\mathrm{offline}}(\boldsymbol{\theta})&=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))\right]-\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^{2}\end{aligned}$
其中权重 $\zeta$ 与Q函数关系如下，
$\zeta=\frac{\alpha}{\frac{1}{m}\sum_{(s_{i},\boldsymbol{a}_{i})\in\overline{\mathcal{B}}}|Q(\boldsymbol{s}_{i},\boldsymbol{a}_{i})|}$

在线阶段为了防止策略出现Performance drop, 对策略优化j保留BC项。如下：：
$\begin{aligned}J_{\mathrm{online}}(\boldsymbol{\theta})&=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}\left(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s})\right)\right]-\lambda\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^{2}\end{aligned}$

价值函数通过最小化均方bellman误差：
$L(\phi)=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\left(\bar{y}-Q_{\boldsymbol{\phi}}(\boldsymbol{s},\boldsymbol{a})\right)^{2}\right]\quad(11)\\\bar{y}=r+\min_{i=1,2}Q_{\bar{\boldsymbol{\phi}}_{i}}(s,^{\prime}\boldsymbol{a}^{\prime}\sim\pi_{\bar{\boldsymbol{\theta}}}).$

伪代码

在这里插入图片描述

结果

在这里插入图片描述

对比的方法有点老，不知道和最近的一些Off2On、UPQ、E2O如何

O2O:Offline–Online Actor–Critic

Method

伪代码

结果

最新新闻

热搜词