使用 tf_agents.environments.TFPyEnvironment 将 Python RL 环境转换为 TF 环境时会发生哪些变化？

如何解决使用 tf_agents.environments.TFPyEnvironment 将 Python RL 环境转换为 TF 环境时会发生哪些变化？

在使用 tf_agents.environments.TFPyEnvironment 将 Python 环境转换为 TF 环境时，我注意到发生了一些奇怪的事情，我想问您发生了哪些一般性变化。

要澄清问题，请在我的代码下方找到。我希望环境模拟（以过于简单的方式）与想要购买水果或蔬菜的客户的互动。代理应该知道当客户要水果时，例如应该执行动作 0。

class CustomEnv(py_environment.PyEnvironment):
    
    def __init__(self):
        self._action_spec = array_spec.BoundedArraySpec(
            shape=(),dtype=np.int32,minimum=0,maximum=1)
        self._observation_spec = array_spec.BoundedArraySpec(
        shape=(1,1),maximum=1)
        self._state = [0]
        self._counter = 0
        self._episode_ended = False
        self.dictionary = {0: ["Fruits"],1: ["vegetables"]}
    
    def action_spec(self):
        return self._action_spec
    
    def observation_spec(self):
        return self._observation_spec
    
    def _reset(self):
        self._state = [0]
        self._counter = 0
        self._episode_ended = False
        return ts.restart(np.array([self._state],dtype=np.int32))
    
    def preferences(self):
        return np.random.randint(2)
    
    def pickedBasket(self,yes):
        reward = -1.0
        if yes:
            reward = 0.0
        return reward
    
    def _step(self,action):
        if self._episode_ended:
            self._reset()
        
        if self._counter<50:
            self._counter += 1
            
            basket = self.preferences()
            condition = basket in self.dictionary[action]
            reward = self.pickedBasket(condition)
            self._state[0] = basket
            
            if self._counter==50:
                self._episode_ended=True
                return ts.termination(np.array([self._state],dtype=np.int32),reward,1)
            else:
                return ts.transition(np.array([self._state],discount=1.0)

当我执行以下代码以检查一切正常时：

py_env = ContextualMBA()
tf_env = tf_py_environment.TFPyEnvironment(py_env)
time_step = tf_env.reset()
action = 0
next_time_step = tf_env.step(action)

我得到一个 unhashable type: 'numpy.ndarray' 行 condition = basket in self.dictionary[action] 所以我把它改成 condition = basket in self.dictionary[int(action)] 并且它工作得很好。我还想确切地说，即使不添加 int 部分，它也可以作为 Python 环境工作。所以我想问一下tf_agents.environments.TFPyEnvironment有什么变化。我看不出它如何影响操作 action 的类型，因为它与 action_spec 或任何东西（至少直接在代码中）无关。

解决方法

基本上，tf_agents.environments.TFPyEnvironment 是在您的 Python 环境和 TF-Agents API 之间工作的翻译器。 TF-Agents API 不知道允许从多少个操作中进行选择，要观察和学习哪些数据，或者特别是操作的选择将如何影响您的自定义环境。

您的自定义环境用于提供环境规则，它遵循一些标准，以便 TFPyEnvironment 能够正确转换它，以便 TF-Agent 可以使用它。您需要在您的自定义环境中定义元素和方法，例如：

__init__()
  self._action_spec
  self._observation_spec
_reset()
_step()

我不确定您的怀疑是否来自于您为代理提供了 action = 0 并且与 action_spec 无关的代理实际工作的事实。 action_spec 与您的 _step() 函数没有关系，这是正确的。您的 step 函数执行一些操作并将其应用于环境。这个动作如何塑造才是真正的重点。

问题是您选择了该值并将其提供给 tf_env.step() 函数。如果您实际上已将操作选择权委托给代理，通过 tf_env.step(agent.policy.action)（或 tf_env.step(agent.policy.action.action)，有时 TF-Agents 让我感到困惑），代理将不得不查看您的 action_spec 定义了解环境对动作的期望。

如果 action_spec 未定义，代理将不知道在“水果”的 0 和“蔬菜”的 1 之间选择什么 - 您想要并定义 - 或者意外的结果为“肉类”的 2,或 [3,2] 表示 2 瓶水，因为 3 可以代表“瓶装水”。 TF-Agent 需要这些定义，以便了解您的环境规则。

至于实际更改以及它们对您的自定义环境代码的作用，我相信您可以通过查看 TF-Agents 库的源代码获得更好的想法。