如何解决Q-learning 代理是否需要收敛到实际的状态动作值?
据我所知,Q-learning 试图找到所有状态和动作的实际状态-动作值。但是,我下面的假设示例似乎表明情况并非一定如此。
- 只有一种可能状态的状态空间
S = {s_1}
, - 具有单一可能操作的操作空间
A = {a_1}
, - 带有
R: S X A X S → ℝ
的奖励函数R(s_1,a_1,s_1) = 4
- 最后是一个状态转换函数
T: S X A X S → [0,1]
,它为所有动作A
以及从和到状态s_1
的状态转换产生概率 1
现在假设我们有一个使用乐观初始化进行初始化的代理。对于所有可能的状态和动作,我们将 Q 值设置为等于 5(即 Q(s_1,a_1) = 5
)。 Q 值将使用贝尔曼方程更新:
Q(S,A) := Q(S,A) + α( R + γQ(S',A') - Q(S,A) )
这里选择α和γ使得α = (0,1]
和γ = (0,1]
。请注意,我们将要求 α 和 γ 非零。
当代理在状态 a_1
下选择其动作 (s_1
) 时,更新公式变为:
Q(s_1,a_1) := 5 + α( 4 + γ5 - 5 )
请注意,Q 值在 γ5 = 1
时不发生变化,或者更普遍地在 γQ(S,A) = Q(S,A) - R
时发生变化。此外,当γQ(S,A) > Q(S,A) - R
时Q值会增加,这将进一步增加实际状态动作值与预期状态动作值之间的差异。
这似乎表明在某些情况下,实际和预期状态-动作值之间的差异可能会随着时间的推移而增加。换句话说,期望值可能与实际值有偏差。
如果我们将所有状态和动作的 Q 值初始化为等于 0,我们肯定不会陷入这种情况。但是,我确实相信随机奖励/转换函数可能会导致代理以类似的方式高估其状态-动作值,从而导致上述行为生效。这将需要一种极不可能的情况,即 MDP 经常转换到高收益状态,即使这种转换的可能性非常低。
也许我在这里做出的任何假设实际上都不成立。也许目标目标不是精确估计真实的状态动作值,而是收敛到最佳状态动作值就足够了。话虽如此,我确实觉得实际回报和预期回报之间可能存在背离行为很奇怪。
对此的任何想法将不胜感激。
解决方法
上述假设的问题是我期望 Q(s,a)
收敛到 R(s,a,s')
。不是这种情况。正如 Sutton 和 Barto 在 RL 书中所述:
Q(s,a) = sum_r p(s',r|s,a)*r = E[r]
在这种情况下,Q 值实际上代表了预期的一步奖励,并且应该收敛到 R + γQ(S',A')
而不是 R(s,s')。因此,状态-动作值可以远离确定性即时奖励 R
并且 Q(s,a)
收敛的值取决于 γ
也就不足为奇了。
此外,当使用随机奖励/转换函数时,Q(s,a)
被高估的假设情况是可能的。只有在无限次访问所有状态 - 动作对 (s,a)
时才能保证收敛到实际状态 - 动作值。因此,这是一个与探索和开发相关的问题。 (在这种情况下,应该允许代理进行更多探索。)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。