想要：多代理系统，用于最大化所有代理的整体奖励

也许你可以帮我解决以下问题。

系统模型：

我们假设有两个代理 A 和 B，以及它们对应的动作 a_a 和 a_b。动作空间定义为 {1,2,3}。数字对应于奖励矩阵的行和列。奖励矩阵定义如下：

特工 A 的奖励矩阵： [11 0 0,0 0 0,0 0 -10]

特工 B 的奖励矩阵： [11 0 0,0 0 100]

现在，代理 A 选择列，代理 B 选择行。两者都从相应的矩阵中观察到奖励。

优化目标

我们希望最大化整体奖励，即代理 A 和 B 的奖励总和。

现在有什么问题？

按照本教程（ray/centralized_critic.py at master · ray-project/ray · GitHub），我们通过使用集中式评论家多代理系统解决了上述目标。

不幸的是，该系统仅优化了代理的个人奖励，如下所示：

是否有适合我们优化目标的多智能体系统示例，即最大化整体奖励？

在我们的模型中，这将导致总体奖励为 90 而不是 22。

非常感谢。

最好的，亚伦