东莞属于哪个省哪个市_网站在线_最新社会舆情信息_搜索引擎外部链接优化

2025/4/18 23:52:56 来源：https://blog.csdn.net/coco_1998_2/article/details/143748314 浏览: 次关键词：东莞属于哪个省哪个市_网站在线_最新社会舆情信息_搜索引擎外部链接优化

OpenAI Gym是 OpenAI 出的研究强化学习算法的 toolkit，对于强化学习算法来说，大部分的论文环境都已经被 OpenAI 的 gym 环境集成，我们可以很便利的使用该工程来测试自己的强化学习算法，与他人的算法做一个对比。

Gym 官网

Github：https://github.com/openai/gym

官网：http://gym.openai.com/

安装方式

pip install gym

Gym 使用介绍

创建一个 gym 环境：

env = gym.make("CartPole-v1")

获取所有可用环境：

gym.envs.registry.all()

创建环境后，必须用 reset() 初始化，返回第一个观察值，观察值取决于环境的类型。

obs = env.reset()

环境可能采取的行动: env.action_space，每个环境都带有 action_space 和 observation_space 对象。这些属性是 Space 类型，描述格式化的有效的行动和观察。

step() 执行给定动作并返回四个值

obs: 新观察
reward: 无论做什么，每一步获得 1.0 奖励，因此目标是使小车尽可能长时间运行
done: 整个回合结束时，此值为 True，之后必须重置环境
info: 环境特定的字典，提供额外的信息

obs, reward, done, info = env.step(env.action_space.sample())

使用完环境后，调用 close() 释放资源。

env.close()

import timeimport gym"""
1. 环境（environment）
2. 智能体agent（算法）
agent发送action至environment，environment返回观察和回报。
"""def main():"""用 make() 创建一个 gym 中的现成环境"""env = gym.make("CartPole-v1")obs, reward, done, info = env.reset()print("obs: {}".format(obs))print("reward: {}".format(reward))print("done: {}".format(done))print("info: {}".format(info))print("action_space: {}".format(env.action_space))print("observation_space: {}".format(env.observation_space))print("observation_space.high: {}".format(env.observation_space.high))print("observation_space.low: {}".format(env.observation_space.low))# 刷新当前环境，并显示for _ in range(1000):env.render()obs, reward, done, info = env.step(env.action_space.sample())if done:breaktime.sleep(0.1)env.close()if __name__ == "__main__":main()

东莞属于哪个省哪个市_网站在线_最新社会舆情信息_搜索引擎外部链接优化

Gym 官网

安装方式

Gym 使用介绍

最新新闻

热搜词