您的位置:首页 > 科技 > 能源 > 专业网站建设公司哪里好_网站设计与制作报价_淘宝客推广平台_今日新闻快讯10条

专业网站建设公司哪里好_网站设计与制作报价_淘宝客推广平台_今日新闻快讯10条

2024/12/23 16:01:26 来源:https://blog.csdn.net/m0_57958061/article/details/142718929  浏览:    关键词:专业网站建设公司哪里好_网站设计与制作报价_淘宝客推广平台_今日新闻快讯10条
专业网站建设公司哪里好_网站设计与制作报价_淘宝客推广平台_今日新闻快讯10条

  • state

例如上图就是location,就是网格的位置为state

  • action

就是可采取的行动,这里就是可以move的位置

  • state transition

就是状态采取action后的state

  • forbidden area考虑两种,一种是可以进去,但是会有惩罚,第二种不可以。课程采用的第一种

  • Policy 告诉agent在每个state应该采取什么action

  • 比如用Π表示策略,在状态S1下采取不同的action的概率。其概率之和为1

  • reward

当这个数是正数,代表这个行为是鼓励的,如果是负数,代表为惩罚,这个行为不鼓励。(这个正负数是相对的,就是数学概念,比如也可以用正数代表惩罚)

  • agent到达不同的位置的奖励分数,或者在不同的状态下采取对应的行动获得的得分

  • trajectory

包含了状态,action, reward。每个trajectory需要有return

  • 数学上定义一个policy比较好的方式,就是return的值比较好

  • discounted return

如上图,每次进入到target都会得一分,然后分数就会无穷大了

  • 使用discounted rate

每一个reward都设置一个\gamma,此时这个无穷值就变成了一个数,并且,如果\gamma接近0,证明后面的reward的影响衰减快,主要依赖于前面的reward,等于1,则衰减的较慢。

减少会更加近视,注重前面的reward,增加会更加远视

  • Episode

通常是有限步,就是有限步后停止了

MDP

  • 集合化
    • 状态集合S
    • 行为集合A(s)
    • 回报集合R(s,a)
  • 概率分布
    • 状态过度概率:在当前的状态s采取行动a,到达s'的概率
    • 回报过度概率:在当前的状态s采取行动a,获得分数r的概率
  • policy
  • 与历史无关

得到状态St+1只与t的状态和行为有关

decision process给出policy后变为markov process

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com