微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

openAI体育馆的行动和观察空间

如何解决openAI体育馆的行动和观察空间

我正在为任务创建自定义环境,并且对如何定义action_space和observation_space感到困惑。如果有人能提供帮助,我将不胜感激,我一直在寻找可能的解决方案(首先通过阅读体育馆文档),但我仍然不清楚。

我有一个10,000 x 10,000的矩阵,每个点用0或1填充。

目标是使代理将其选择的现货的值更改为0或1,然后在将数字更改为“基本事实”矩阵之后比较新状态,从而根据在这些比较之间得分。目标是使代理人找到改变0和1的最快方法,以实现与“基本事实”矩阵的最大相似性。

代理可以:将给定位置的值更改为1,将给定位置的值更改为0,将整行更改为全0

目前,我已将观察空间设置如下:

self.observation_space = spaces.Box(
low=0,high=1,shape=(10000,10000),dtype=np.float32)

我不确定这是否正确,但也不确定动作空间应该是什么:

我不确定是否应该将其定义为代理可以在其中行动的空间,所以例如:

self.action_space = spaces.Tuple((spaces.discrete(len(self.matrix)),spaces.discrete(len(self.matrix))))# where length is 10000

或:

self.action_space = discrete(3)-由于代理人可以在矩阵上进行3种可能的移动,并且具有随机的动作定义。选择允许代理人在矩阵上选择坐标...

对我来说,这是最直观的选择,但是我看不到训练和q_val评估和更新期间的工作方式,因为我不知道如果以前“看过”那些坐标并且知道,那么将来的表现如何更改为0或1是好是坏...

这里的任何建议都会很有帮助

谢谢!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。