微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在包含n个二进制动作的动作空间的情况下,如何训练RL代理?

如何解决在包含n个二进制动作的动作空间的情况下,如何训练RL代理?

我需要训练RL代理,该代理必须控制一些开关。假设我们有n个开关,它们可以打开(1)或关闭(0)。我的代理人必须在每个步骤中确定要撕裂和折弯的哪一个,所以我希望动作如下所示:[1,1,.... 1]-由n个二进制元素组成的向量。

我该如何训练代理人? DQN旁边的东西可以将给定的动作空间转换为可能的2 ^ n个动作谨慎的空间吗?

解决方法

如果您要这样做,DQN还可以支持矢量化操作空间。有关已实现此功能的框架,请参见TF-Agents。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。