部分恒定延迟环境中的强化学习问题我已经考虑过但可能需要一些帮助来对它们进行评级的事情附加

我对强化学习领域“相当”陌生，我正在尝试解决一个具有持续延迟奖励的问题。

就我的背景而言，我已经阅读了“强化学习：简介”一书，目前正在摆弄一些算法和工作中的一些问题，人们可能会考虑使用 RL。

假设我们在具有部分恒定延迟 k 的环境中有一个（正在进行的）控制任务。在这种情况下，部分度量意味着一些度量是即时的，而另一些度量具有用 k 表示的延迟。

与奖励计算相关的措施被延迟。这些措施也可能与控制任务相关，因为它们是在州内提供的。

我发现了一些与整体延迟反馈（环境 + 奖励）相关的工作，但涉及仅部分环境延迟的情况的工作要少得多。

我想到的基本问题是：您如何处理部分延迟的环境？

加入环境措施。有效延迟环境反馈以帮助代理学习策略。
- 代理可能会学习到次优策略，因为它无法立即对其行为引起的变化做出反应。
- 在正在进行的控制设置中，当前（未延迟）状态可以为刚刚离开他的代理提供重要信息。
- 我知道我的话在这里不是最好的，但总而言之，我不喜欢这种方法。例如。单个“错误”操作可能导致失败的环境设置，延迟可用的反馈不是一个好主意。
忽略奖励延迟：对于一些小的k，这对于正确的算法来说是合理的，例如SARSA(λ) 应该没问题。然而，随着 k 的增加，问题变得更加困难。
- 与上述方法相反，代理能够立即对由其良好行为引起的状态变化做出反应。
- 然而，随着 k 的增加，代理将很难学习最佳策略。
- 在没有可用模拟体验的环境中，这可能不适合。
增强状态以重新获得马尔可夫性质 Sk* = S x A^k*
- 指数状态空间增加对我来说似乎不是一个好主意
- 除此之外，如果有足够的时间，这应该可以工作
使用规划方法预测/模拟下一个状态S'，同时延迟真正的反馈
- 使用 1) 方法并尝试通过预测下一个状态来弥补缺点
- 这可能适用于非关键任务，但不适用于 1) 的最后一个要点中概述的最坏情况

写这篇文章时，我意识到我对整个主题的理解并不是我想要的。 RL 和 MDP 的基本概念就在那里，但我只需要较少的经验就可以轻松地将这些知识转移和使用到现实世界的例子中。

感谢这里的任何帮助！我也非常感谢您提供正确的论文和书籍的指点。

编辑：改进问题和标题。

部分恒定延迟环境中的强化学习 问题我已经考虑过但可能需要一些帮助来对它们进行评级的事情附加