您将如何解决这个多智能体强化学习问题？

您好，我正在寻找一种将有限资源分配结合到动作选择中的多智能体强化算法。在最简单的情况下，两个智能体必须学会协调以选择产生最高奖励的联合动作，同时保持在支出限制之下。

我在传统的多代理 RL 实现中遇到的问题是，代理通常会接受独立的观察并同时进行选择。

然而，在这种情况下，第二个代理的观察直接基于第一个代理花了多少钱。

假设我们有 10 美元可用于在杂货店购买食物，每种食物都有一个预定义的成本/价值表。如果代理 1 花费 9 美元，代理 2 只能选择花费 1 美元的食物。代理 1 和代理 2 必须共同努力找到最佳权衡，以便他们的总回报最大化。从强化学习的角度来看，你会如何处理这个问题。

我的想法是，特工 1 必须以某种方式不仅要考虑他因选择一个好的行动而获得的直接自私奖励，还要考虑为特工 2 留下的剩余状态的质量。他需要能够区分采取导致坏结果的自私的好行为，而不是采取一般性的坏行为（一种价值不大的食物）。