浙江职业能力建设网_企业质量文化建设_网站百度收录要多久_网络营销做得好的产品

2025/4/25 17:39:09 来源：https://blog.csdn.net/wuli2496/article/details/147169256 浏览: 次关键词：浙江职业能力建设网_企业质量文化建设_网站百度收录要多久_网络营销做得好的产品

思维导图

在这里插入图片描述

探索和利用

Exploitation:使用模型直接处理
Exploration:尝试新的方法来更新当前的模型
$\epsilon$ -贪心表示以 $\epsilon$ 概率执行探索，以 $1-\epsilon$ 概率执行利用

关键概念

值函数：表示为在初始状态为s的情况下采取策略 $\pi$ 累积到h步的奖励期望值
$V^{\pi}(s)=E_{\pi}\left[\sum_{i=0}^h r_i|s_0=s\right]$
在考虑折扣因子 $\gamma$ ，状态步数为无穷远时值函数表示为
$V^{\pi}(s)=E_{\pi}\left[\sum_{i=0}^\infty\gamma^i r_i|s_0=s\right]$
bellman方程
$\begin{aligned} V^{\pi}(s) &=E_{\pi}\left[\sum_{i=0}^h \gamma^i r_i|s_0=s\right]\\ &= E_{\pi}\left[ r_0 + \sum_{i=1}^h \gamma^i r_i|s_0 = s\right] \\ & = \pi(s) \sum_{s' \in S} p(s,s')E_{\pi}\left[ r_0 +\gamma \sum_{i=0}^h \gamma^i r_i|s_0 = s' \right] \\ & = \pi(s) \sum_{s' \in S} p(s, s')\left[ r_0 + \gamma V^{\pi}(s')\right] \end{aligned}$
即 $V^{\pi}(s)= \pi(s) \sum_{s' \in S} p(s, s')\left[ r_0 + \gamma V^{\pi}(s')\right]$
当在某种策略中时，可表示为
$\gamma \sum_{s' \in S} p(s, s')V(s')$

动作值函数：表示在状态s，采取动作a时得到的值函数
$\begin{aligned} Q(s,a) &= \sum_{s' \in S} p(s, s')\left[ r + \gamma V^\pi(s')\right] \\ &= r_s^a+\gamma \sum_{s' \in S} p(s, s') \sum_{a' \in A} \pi(a'|s') Q(s',a') \end{aligned}$

TD(时序差分)

是temporal difference缩写
Q-learning关系式为
$Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \left[ R_{t+1} + \gamma \max_{a} Q(S_{t+1}, a) - Q(S_t, A_t)\right]$
在这里插入图片描述

模仿学习

也称为观察学习，是通过专家策略轨迹对模型快速初始化，为了后面通过一般的强化学习求解问题

浙江职业能力建设网_企业质量文化建设_网站百度收录要多久_网络营销做得好的产品

思维导图

探索和利用

关键概念

TD(时序差分)

模仿学习

最新新闻

热搜词