如何解决部分恒定延迟环境中的强化学习 问题我已经考虑过但可能需要一些帮助来对它们进行评级的事情附加
我对强化学习领域“相当”陌生,我正在尝试解决一个具有持续延迟奖励的问题。
就我的背景而言,我已经阅读了“强化学习:简介”一书,目前正在摆弄一些算法和工作中的一些问题,人们可能会考虑使用 RL。
问题
假设我们在具有部分恒定延迟 k 的环境中有一个(正在进行的)控制任务。在这种情况下,部分度量意味着一些度量是即时的,而另一些度量具有用 k 表示的延迟。
与奖励计算相关的措施被延迟。这些措施也可能与控制任务相关,因为它们是在州内提供的。
我发现了一些与整体延迟反馈(环境 + 奖励)相关的工作,但涉及仅部分环境延迟的情况的工作要少得多。
我想到的基本问题是:您如何处理部分延迟的环境?
我已经考虑过但可能需要一些帮助来对它们进行评级的事情
- 加入环境措施。有效延迟环境反馈以帮助代理学习策略。
- 忽略奖励延迟:对于一些小的k,这对于正确的算法来说是合理的,例如SARSA(λ) 应该没问题。然而,随着 k 的增加,问题变得更加困难。
- 增强状态以重新获得马尔可夫性质 Sk* = S x A^k*
- 使用规划方法预测/模拟下一个状态S',同时延迟真正的反馈
附加
写这篇文章时,我意识到我对整个主题的理解并不是我想要的。 RL 和 MDP 的基本概念就在那里,但我只需要较少的经验就可以轻松地将这些知识转移和使用到现实世界的例子中。
感谢这里的任何帮助!我也非常感谢您提供正确的论文和书籍的指点。
编辑:改进问题和标题。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。