微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用稳定的基线3使模型在循环中学习?

如何解决如何使用稳定的基线3使模型在循环中学习?

在来自 stablebaselines3 网站 (https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html) 的示例代码中,模型首先通过 model.learn(total_timesteps=25000) 行学习,然后可以在播放循环中使用。

现在,由于我希望能够在代理进行学习的同时监控不同的参数(来自自定义环境),我的问题是:如何在播放循环中使用 model.learn?>

import gym
from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env

# Parallel environments
env = make_vec_env("CartPole-v1",n_envs=4)

model = PPO("MlpPolicy",env,verbose=1)
model.learn(total_timesteps=25000)
model.save("ppo_cartpole")

del model # remove to demonstrate saving and loading

model = PPO.load("ppo_cartpole")

obs = env.reset()
while True:
    action,_states = model.predict(obs)
    obs,rewards,dones,info = env.step(action)
    env.render()

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。