微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

想要:多代理系统,用于最大化所有代理的整体奖励

如何解决想要:多代理系统,用于最大化所有代理的整体奖励

也许你可以帮我解决以下问题。

系统模型:

我们假设有两个代理 A 和 B,以及它们对应的动作 a_a 和 a_b。 动作空间定义为 {1,2,3}。数字对应于奖励矩阵的行和列。 奖励矩阵定义如下:

特工 A 的奖励矩阵: [11 0 0,0 0 0,0 0 -10]

特工 B 的奖励矩阵: [11 0 0,0 0 100]

现在,代理 A 选择列,代理 B 选择行。两者都从相应的矩阵中观察到奖励。

优化目标

我们希望最大化整体奖励,即代理 A 和 B 的奖励总和。

现在有什么问题?

按照本教程(ray/centralized_critic.py at master · ray-project/ray · GitHub),我们通过使用集中式评论家多代理系统解决了上述目标。

不幸的是,该系统仅优化了代理的个人奖励,如下所示:

click here for the reward plot

是否有适合我们优化目标的多智能体系统示例,即最大化整体奖励?

在我们的模型中,这将导致总体奖励为 90 而不是 22。

非常感谢。

最好的, 亚伦

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。