微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何告诉代理人,运动空间中的某些动作目前在体育馆中不可用?

如何解决如何告诉代理人,运动空间中的某些动作目前在体育馆中不可用?

  1. 最简单的情况是,我将操作空间定义为spaces.discrete(3),但是有时0不可用,代理只能从1和2中采样。有时2不可用,或者1和2不可用。我如何告诉代理某些选择不可用?

(注意:通过unavailable,我的意思是该动作是不可能的,不会发生,并且其结果是不确定的;而不是错误的选择会导致负面的回报。)

  1. 实际上,我有Multidiscrete个动作空间,有些动作有时不可用(就像问题1一样)。甚至更糟的是,从这些空间中选择的动作必须满足某些条件,例如,discrete 2 - discrete 2 Multidiscrete动作空间必须满足以下功能f(a1,a2) <= 1,其中a1是从第一个discrete 2空间,而a2从第二个discrete 2空间采样。但是这里的f一个复杂的函数,它不像+那样简单,而是与当前状态相关的函数。如果是这种情况,我怎么能告诉代理当前某些选择不可用?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。