微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

您将如何解决这个多智能体强化学习问题?

如何解决您将如何解决这个多智能体强化学习问题?

您好,我正在寻找一种将有限资源分配结合到动作选择中的多智能体强化算法。在最简单的情况下,两个智能体必须学会协调以选择产生最高奖励的联合动作,同时保持在支出限制之下。

我在传统的多代理 RL 实现中遇到的问题是,代理通常会接受独立的观察并同时进行选择。

然而,在这种情况下,第二个代理的观察直接基于第一个代理花了多少钱。

假设我们有 10 美元可用于在杂货店购买食物,每种食物都有一个预定义的成本/价值表。如果代理 1 花费 9 美元,代理 2 只能选择花费 1 美元的食物。代理 1 和代理 2 必须共同努力找到最佳权衡,以便他们的总回报最大化。从强化学习的角度来看,你会如何处理这个问题。

我的想法是,特工 1 必须以某种方式不仅要考虑他因选择一个好的行动而获得的直接自私奖励,还要考虑为特工 2 留下的剩余状态的质量。他需要能够区分采取导致坏结果的自私的好行为,而不是采取一般性的坏行为(一种价值不大的食物)。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。