如何解决想要:多代理系统,用于最大化所有代理的整体奖励
也许你可以帮我解决以下问题。
系统模型:
我们假设有两个代理 A 和 B,以及它们对应的动作 a_a 和 a_b。 动作空间定义为 {1,2,3}。数字对应于奖励矩阵的行和列。 奖励矩阵定义如下:
特工 A 的奖励矩阵: [11 0 0,0 0 0,0 0 -10]
特工 B 的奖励矩阵: [11 0 0,0 0 100]
现在,代理 A 选择列,代理 B 选择行。两者都从相应的矩阵中观察到奖励。
优化目标
我们希望最大化整体奖励,即代理 A 和 B 的奖励总和。
现在有什么问题?
按照本教程(ray/centralized_critic.py at master · ray-project/ray · GitHub),我们通过使用集中式评论家多代理系统解决了上述目标。
不幸的是,该系统仅优化了代理的个人奖励,如下所示:
click here for the reward plot
是否有适合我们优化目标的多智能体系统示例,即最大化整体奖励?
在我们的模型中,这将导致总体奖励为 90 而不是 22。
非常感谢。
最好的, 亚伦
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。