openAI体育馆的行动和观察空间

我正在为任务创建自定义环境，并且对如何定义action_space和observation_space感到困惑。如果有人能提供帮助，我将不胜感激，我一直在寻找可能的解决方案（首先通过阅读体育馆文档），但我仍然不清楚。

我有一个10,000 x 10,000的矩阵，每个点用0或1填充。

目标是使代理将其选择的现货的值更改为0或1，然后在将数字更改为“基本事实”矩阵之后比较新状态，从而根据在这些比较之间得分。目标是使代理人找到改变0和1的最快方法，以实现与“基本事实”矩阵的最大相似性。

代理可以：将给定位置的值更改为1，将给定位置的值更改为0，将整行更改为全0

目前，我已将观察空间设置如下：

self.observation_space = spaces.Box(
low=0,high=1,shape=(10000,10000),dtype=np.float32)

我不确定这是否正确，但也不确定动作空间应该是什么：

我不确定是否应该将其定义为代理可以在其中行动的空间，所以例如：

self.action_space = spaces.Tuple((spaces.discrete(len(self.matrix)),spaces.discrete(len(self.matrix))))# where length is 10000

或：

self.action_space = discrete(3)-由于代理人可以在矩阵上进行3种可能的移动，并且具有随机的动作定义。选择允许代理人在矩阵上选择坐标...

对我来说，这是最直观的选择，但是我看不到训练和q_val评估和更新期间的工作方式，因为我不知道如果以前“看过”那些坐标并且知道，那么将来的表现如何更改为0或1是好是坏...

这里的任何建议都会很有帮助

谢谢！