在 tf-agents - 编程之家

如何解决在 tf-agents

我一直在尝试使用 tensorflow 中的 tf-agents 构建 rl 代理。我在自定义构建环境中遇到了这个问题，但使用官方 tf colab 示例重现了它。每当我尝试使用 QRnnNetwork 作为 DqnAgent 的网络时，就会出现问题。代理与常规 qnetwork 一起工作正常，但在使用 qrnn 时会重新调整 policy_state_spec。我该如何补救？

这是 policy_state_spec 转换成的形状，但原始形状是 ()

ListWrapper([TensorSpec(shape=(16,),dtype=tf.float32,name='network_state_0'),TensorSpec(shape=(16,name='network_state_1')])

q_net = q_rnn_network.QRnnNetwork(
    train_env.observation_spec(),train_env.action_spec(),lstm_size=(16,)
optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=learning_rate)
train_step_counter = tf.Variable(0)

agent = dqn_agent.DqnAgent(
    train_env.time_step_spec(),q_network=q_net,optimizer=optimizer,td_errors_loss_fn=common.element_wise_squared_loss,train_step_counter=train_step_counter)
agent.initialize()

collect_policy = agent.collect_policy
example_environment = tf_py_environment.TFPyEnvironment(
    suite_gym.load('CartPole-v0'))
time_step = example_environment.reset()


collect_policy.action(time_step)

我收到此错误：

TypeError: policy_state and policy_state_spec structures do not match:
  ()
vs.
  ListWrapper([.,.])

解决方法

我进入了代码，似乎对于 RNN，在 action(time_step,policy_state,seed) 方法中，您需要在上一步中提供策略的状态，如文档所述：

policy_state：一个张量，或一个嵌套的字典、列表或表示前一个 policy_state 的张量元组。 https://www.tensorflow.org/agents/api_docs/python/tf_agents/policies/GreedyPolicy#action

你的错误：

TypeError: policy_state and policy_state_spec structures do not match:
  ()
 vs.
  ListWrapper([.,.])

想说的是您应该将 RNN 的内部状态提供给 action 方法。我在文档中找到了一个示例：

https://www.tensorflow.org/agents/api_docs/python/tf_agents/policies/TFPolicy#example_usage

它显示的代码（截至 2021 年 8 月 8 日）如下：

env = SomeTFEnvironment()
policy = TFRandomPolicy(env.time_step_spec(),env.action_spec())
# Or policy = agent.policy or agent.collect_policy

policy_state = policy.get_initial_state(env.batch_size)
time_step = env.reset()

while not time_step.is_last():
  policy_step = policy.action(time_step,policy_state)
  time_step = env.step(policy_step.action)

  policy_state = policy_step.state
  # policy_step.info may contain side info for logging,such as action log
  # probabilities.

如果您以这种方式实现您的代码，它可能会奏效！