Q-learning 代理是否需要收敛到实际的状态动作值？

据我所知，Q-learning 试图找到所有状态和动作的实际状态-动作值。但是，我下面的假设示例似乎表明情况并非一定如此。

想象一个具有以下属性的马尔可夫决策过程 (MDP)：

现在假设我们有一个使用乐观初始化进行初始化的代理。对于所有可能的状态和动作，我们将 Q 值设置为等于 5（即 Q(s_1,a_1) = 5）。 Q 值将使用贝尔曼方程更新：

Q(S,A) := Q(S,A) + α( R + γQ(S',A') - Q(S,A) )

这里选择α和γ使得α = (0,1]和γ = (0,1]。请注意，我们将要求 α 和 γ 非零。

当代理在状态 a_1 下选择其动作 (s_1) 时，更新公式变为：

Q(s_1,a_1) := 5 + α( 4 + γ5 - 5 )

请注意，Q 值在 γ5 = 1 时不发生变化，或者更普遍地在 γQ(S,A) = Q(S,A) - R 时发生变化。此外，当γQ(S,A) > Q(S,A) - R时Q值会增加，这将进一步增加实际状态动作值与预期状态动作值之间的差异。

这似乎表明在某些情况下，实际和预期状态-动作值之间的差异可能会随着时间的推移而增加。换句话说，期望值可能与实际值有偏差。

如果我们将所有状态和动作的 Q 值初始化为等于 0，我们肯定不会陷入这种情况。但是，我确实相信随机奖励/转换函数可能会导致代理以类似的方式高估其状态-动作值，从而导致上述行为生效。这将需要一种极不可能的情况，即 MDP 经常转换到高收益状态，即使这种转换的可能性非常低。

也许我在这里做出的任何假设实际上都不成立。也许目标目标不是精确估计真实的状态动作值，而是收敛到最佳状态动作值就足够了。话虽如此，我确实觉得实际回报和预期回报之间可能存在背离行为很奇怪。

对此的任何想法将不胜感激。

上述假设的问题是我期望 Q(s,a) 收敛到 R(s,a,s')。不是这种情况。正如 Sutton 和 Barto 在 RL 书中所述：

Q(s,a) = sum_r p(s',r|s,a)*r = E[r]

在这种情况下，Q 值实际上代表了预期的一步奖励，并且应该收敛到 R + γQ(S',A') 而不是 R(s,s')。因此，状态-动作值可以远离确定性即时奖励 R 并且 Q(s,a) 收敛的值取决于 γ 也就不足为奇了。

此外，当使用随机奖励/转换函数时，Q(s,a) 被高估的假设情况是可能的。只有在无限次访问所有状态 - 动作对 (s,a) 时才能保证收敛到实际状态 - 动作值。因此，这是一个与探索和开发相关的问题。（在这种情况下，应该允许代理进行更多探索。）