如何解决如何告诉代理人,运动空间中的某些动作目前在体育馆中不可用?
- 最简单的情况是,我将操作空间定义为
spaces.discrete(3)
,但是有时0不可用,代理只能从1和2中采样。有时2不可用,或者1和2不可用。我如何告诉代理某些选择不可用?
(注意:通过unavailable
,我的意思是该动作是不可能的,不会发生,并且其结果是不确定的;而不是错误的选择会导致负面的回报。)
- 实际上,我有
Multidiscrete
个动作空间,有些动作有时不可用(就像问题1一样)。甚至更糟的是,从这些空间中选择的动作必须满足某些条件,例如,discrete 2 - discrete 2
Multidiscrete
动作空间必须满足以下功能:f(a1,a2) <= 1
,其中a1
是从第一个discrete 2
空间,而a2
从第二个discrete 2
空间采样。但是这里的f
是一个复杂的函数,它不像+
那样简单,而是与当前状态相关的函数。如果是这种情况,我怎么能告诉代理当前某些选择不可用?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。