微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Q-learning 代理是否需要收敛到实际的状态动作值?

如何解决Q-learning 代理是否需要收敛到实际的状态动作值?

据我所知,Q-learning 试图找到所有状态和动作的实际状态-动作值。但是,我下面的假设示例似乎表明情况并非一定如此。

想象一个具有以下属性的马尔可夫决策过程 (MDP):

  • 只有一种可能状态的状态空间 S = {s_1}
  • 具有单一可能操作的操作空间 A = {a_1}
  • 带有R: S X A X S → ℝ的奖励函数R(s_1,a_1,s_1) = 4
  • 最后是一个状态转换函数 T: S X A X S → [0,1],它为所有动作 A 以及从和到状态 s_1 的状态转换产生概率 1

现在假设我们有一个使用乐观初始化进行初始化的代理。对于所有可能的状态和动作,我们将 Q 值设置为等于 5(即 Q(s_1,a_1) = 5)。 Q 值将使用贝尔曼方程更新:

Q(S,A) := Q(S,A) + α( R + γQ(S',A') - Q(S,A) )

这里选择α和γ使得α = (0,1]γ = (0,1]。请注意,我们将要求 α 和 γ 非零。

当代理在状态 a_1 下选择其动作 (s_1) 时,更新公式变为:

Q(s_1,a_1) := 5 + α( 4 + γ5 - 5 )

请注意,Q 值在 γ5 = 1 时不发生变化,或者更普遍地在 γQ(S,A) = Q(S,A) - R 时发生变化。此外,当γQ(S,A) > Q(S,A) - R时Q值会增加,这将进一步增加实际状态动作值与预期状态动作值之间的差异。

这似乎表明在某些情况下,实际和预期状态-动作值之间的差异可能会随着时间的推移而增加。换句话说,期望值可能与实际值有偏差。

如果我们将所有状态和动作的 Q 值初始化为等于 0,我们肯定不会陷入这种情况。但是,我确实相信随机奖励/转换函数可能会导致代理以类似的方式高估其状态-动作值,从而导致上述行为生效。这将需要一种极不可能的情况,即 MDP 经常转换到高收益状态,即使这种转换的可能性非常低。

也许我在这里做出的任何假设实际上都不成立。也许目标目标不是精确估计真实的状态动作值,而是收敛到最佳状态动作值就足够了。话虽如此,我确实觉得实际回报和预期回报之间可能存在背离行为很奇怪。

对此的任何想法将不胜感激。

解决方法

上述假设的问题是我期望 Q(s,a) 收敛到 R(s,a,s')。不是这种情况。正如 Sutton 和 Barto 在 RL 书中所述:

Q(s,a) = sum_r p(s',r|s,a)*r = E[r]

在这种情况下,Q 值实际上代表了预期的一步奖励,并且应该收敛到 R + γQ(S',A') 而不是 R(s,s')。因此,状态-动作值可以远离确定性即时奖励 R 并且 Q(s,a) 收敛的值取决于 γ 也就不足为奇了。

此外,当使用随机奖励/转换函数时,Q(s,a) 被高估的假设情况是可能的。只有在无限次访问所有状态 - 动作对 (s,a) 时才能保证收敛到实际状态 - 动作值。因此,这是一个与探索和开发相关的问题。 (在这种情况下,应该允许代理进行更多探索。)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。