微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

我在处理非马尔可夫奖励函数吗?

如何解决我在处理非马尔可夫奖励函数吗?

我正在研究一个 RL 问题,即代理实现采取“a”等动作的奖励的时间 在像“t”这样的时间步中是随机的。事实上,没有立即奖励,所有奖励都是随机延迟的。 为了更清楚,让我们假设代理在时间步“t”中采取行动“a”。代理在时间步 t+k(其中 k>1)中获得奖励。我想知道这种奖励函数是否被归类为非马尔可夫奖励函数在这种环境下哪种 RL 方法效果更好(近似/找到最佳策略)?

PS:它在某种程度上与稀疏奖励问题不同,因为在我的问题中,所采取的每一个动作都有一个非零奖励。但是,代理不会立即收到任何奖励。事实上,一旦智能体采取了行动,他就无法控制何时会收到与该行动相关的奖励。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。