您的位置：首页 > 科技 > 能源 > 专业网站建设公司哪里好_网站设计与制作报价_淘宝客推广平台_今日新闻快讯10条

专业网站建设公司哪里好_网站设计与制作报价_淘宝客推广平台_今日新闻快讯10条

2025/7/1 14:19:52 来源：https://blog.csdn.net/m0_57958061/article/details/142718929 浏览: 次关键词：专业网站建设公司哪里好_网站设计与制作报价_淘宝客推广平台_今日新闻快讯10条

专业网站建设公司哪里好_网站设计与制作报价_淘宝客推广平台_今日新闻快讯10条

state

例如上图就是location，就是网格的位置为state

action

就是可采取的行动，这里就是可以move的位置

state transition

就是状态采取action后的state

forbidden area考虑两种，一种是可以进去，但是会有惩罚，第二种不可以。课程采用的第一种

Policy 告诉agent在每个state应该采取什么action

比如用Π表示策略，在状态S1下采取不同的action的概率。其概率之和为1

reward

当这个数是正数，代表这个行为是鼓励的，如果是负数，代表为惩罚，这个行为不鼓励。（这个正负数是相对的，就是数学概念，比如也可以用正数代表惩罚）

agent到达不同的位置的奖励分数，或者在不同的状态下采取对应的行动获得的得分

trajectory

包含了状态，action, reward。每个trajectory需要有return

数学上定义一个policy比较好的方式，就是return的值比较好

discounted return

如上图，每次进入到target都会得一分，然后分数就会无穷大了

使用discounted rate

每一个reward都设置一个 $\gamma$ ，此时这个无穷值就变成了一个数，并且，如果 $\gamma$ 接近0，证明后面的reward的影响衰减快，主要依赖于前面的reward，等于1，则衰减的较慢。

减少会更加近视，注重前面的reward，增加会更加远视

Episode

通常是有限步，就是有限步后停止了

MDP

集合化

- 状态集合S
- 行为集合A(s)
- 回报集合R(s,a)

概率分布

- 状态过度概率：在当前的状态s采取行动a，到达s'的概率
- 回报过度概率：在当前的状态s采取行动a，获得分数r的概率

policy
与历史无关

得到状态St+1只与t的状态和行为有关

decision process给出policy后变为markov process

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

Robyn和其他框架对比 macOS launchd 一分钟入门图计数问题基于Springboot物流在线下单系统网站设计与实现(作品+论文+开题报告) 看完就会！摄像头拍照扫码解析，最新源码/教程开放 20242943 2024-2025-2 《网络攻防实践》实践五报告

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989