微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 tf-agents

如何解决在 tf-agents

我一直在尝试使用 tensorflow 中的 tf-agents 构建 rl 代理。我在自定义构建环境中遇到了这个问题,但使用官方 tf colab 示例重现了它。每当我尝试使用 QRnnNetwork 作为 DqnAgent 的网络时,就会出现问题。代理与常规 qnetwork 一起工作正常,但在使用 qrnn 时会重新调整 policy_state_spec。我该如何补救?

这是 policy_state_spec 转换成的形状,但原始形状是 ()

ListWrapper([TensorSpec(shape=(16,),dtype=tf.float32,name='network_state_0'),TensorSpec(shape=(16,name='network_state_1')])

q_net = q_rnn_network.QRnnNetwork(
    train_env.observation_spec(),train_env.action_spec(),lstm_size=(16,)
optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=learning_rate)
train_step_counter = tf.Variable(0)

agent = dqn_agent.DqnAgent(
    train_env.time_step_spec(),q_network=q_net,optimizer=optimizer,td_errors_loss_fn=common.element_wise_squared_loss,train_step_counter=train_step_counter)
agent.initialize()

collect_policy = agent.collect_policy
example_environment = tf_py_environment.TFPyEnvironment(
    suite_gym.load('CartPole-v0'))
time_step = example_environment.reset()


collect_policy.action(time_step)

我收到此错误

TypeError: policy_state and policy_state_spec structures do not match:
  ()
vs.
  ListWrapper([.,.])

解决方法

我进入了代码,似乎对于 RNN,在 action(time_step,policy_state,seed) 方法中,您需要在上一步中提供策略的状态,如文档所述:

policy_state:一个张量,或一个嵌套的字典、列表或表示前一个 policy_state 的张量元组。 https://www.tensorflow.org/agents/api_docs/python/tf_agents/policies/GreedyPolicy#action

你的错误:

TypeError: policy_state and policy_state_spec structures do not match:
  ()
 vs.
  ListWrapper([.,.])

想说的是您应该将 RNN 的内部状态提供给 action 方法。我在文档中找到了一个示例:

https://www.tensorflow.org/agents/api_docs/python/tf_agents/policies/TFPolicy#example_usage

它显示的代码(截至 2021 年 8 月 8 日)如下:

env = SomeTFEnvironment()
policy = TFRandomPolicy(env.time_step_spec(),env.action_spec())
# Or policy = agent.policy or agent.collect_policy

policy_state = policy.get_initial_state(env.batch_size)
time_step = env.reset()

while not time_step.is_last():
  policy_step = policy.action(time_step,policy_state)
  time_step = env.step(policy_step.action)

  policy_state = policy_step.state
  # policy_step.info may contain side info for logging,such as action log
  # probabilities.

如果您以这种方式实现您的代码,它可能会奏效!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。