如何解决使用 tf_agents.environments.TFPyEnvironment 将 Python RL 环境转换为 TF 环境时会发生哪些变化?
在使用 tf_agents.environments.TFPyEnvironment 将 Python 环境转换为 TF 环境时,我注意到发生了一些奇怪的事情,我想问您发生了哪些一般性变化。
要澄清问题,请在我的代码下方找到。我希望环境模拟(以过于简单的方式)与想要购买水果或蔬菜的客户的互动。代理应该知道当客户要水果时,例如应该执行动作 0。
class CustomEnv(py_environment.PyEnvironment):
def __init__(self):
self._action_spec = array_spec.BoundedArraySpec(
shape=(),dtype=np.int32,minimum=0,maximum=1)
self._observation_spec = array_spec.BoundedArraySpec(
shape=(1,1),maximum=1)
self._state = [0]
self._counter = 0
self._episode_ended = False
self.dictionary = {0: ["Fruits"],1: ["vegetables"]}
def action_spec(self):
return self._action_spec
def observation_spec(self):
return self._observation_spec
def _reset(self):
self._state = [0]
self._counter = 0
self._episode_ended = False
return ts.restart(np.array([self._state],dtype=np.int32))
def preferences(self):
return np.random.randint(2)
def pickedBasket(self,yes):
reward = -1.0
if yes:
reward = 0.0
return reward
def _step(self,action):
if self._episode_ended:
self._reset()
if self._counter<50:
self._counter += 1
basket = self.preferences()
condition = basket in self.dictionary[action]
reward = self.pickedBasket(condition)
self._state[0] = basket
if self._counter==50:
self._episode_ended=True
return ts.termination(np.array([self._state],dtype=np.int32),reward,1)
else:
return ts.transition(np.array([self._state],discount=1.0)
当我执行以下代码以检查一切正常时:
py_env = ContextualMBA()
tf_env = tf_py_environment.TFPyEnvironment(py_env)
time_step = tf_env.reset()
action = 0
next_time_step = tf_env.step(action)
我得到一个 unhashable type: 'numpy.ndarray' 行 condition = basket in self.dictionary[action]
所以我把它改成 condition = basket in self.dictionary[int(action)]
并且它工作得很好。我还想确切地说,即使不添加 int
部分,它也可以作为 Python 环境工作。所以我想问一下tf_agents.environments.TFPyEnvironment有什么变化。我看不出它如何影响操作 action
的类型,因为它与 action_spec
或任何东西(至少直接在代码中)无关。
解决方法
基本上,tf_agents.environments.TFPyEnvironment
是在您的 Python 环境和 TF-Agents API 之间工作的翻译器。 TF-Agents API 不知道允许从多少个操作中进行选择,要观察和学习哪些数据,或者特别是操作的选择将如何影响您的自定义环境。
您的自定义环境用于提供环境规则,它遵循一些标准,以便 TFPyEnvironment 能够正确转换它,以便 TF-Agent 可以使用它。您需要在您的自定义环境中定义元素和方法,例如:
__init__()
self._action_spec
self._observation_spec
_reset()
_step()
我不确定您的怀疑是否来自于您为代理提供了 action = 0
并且与 action_spec 无关的代理实际工作的事实。 action_spec 与您的 _step()
函数没有关系,这是正确的。您的 step 函数执行一些操作并将其应用于环境。这个动作如何塑造才是真正的重点。
问题是您选择了该值并将其提供给 tf_env.step()
函数。如果您实际上已将操作选择权委托给代理,通过 tf_env.step(agent.policy.action)
(或 tf_env.step(agent.policy.action.action)
,有时 TF-Agents 让我感到困惑),代理将不得不查看您的 action_spec
定义了解环境对动作的期望。
如果 action_spec
未定义,代理将不知道在“水果”的 0 和“蔬菜”的 1 之间选择什么 - 您想要并定义 - 或者意外的结果为“肉类”的 2,或 [3,2] 表示 2 瓶水,因为 3 可以代表“瓶装水”。 TF-Agent 需要这些定义,以便了解您的环境规则。
至于实际更改以及它们对您的自定义环境代码的作用,我相信您可以通过查看 TF-Agents 库的源代码获得更好的想法。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。