微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Gridworld中的终端状态是什么?

如何解决Gridworld中的终端状态是什么?

我正在学习马尔科夫决策过程。 我不知道在哪里标记终端状态。

在4x3网格世界中,我用T标记了我认为正确(可能是错误的)的终端状态。 Pic

我看到一个指示标记的终端状态如下。

terminals=[(3,2),(3,1)]

有人可以解释它是如何工作的吗?

解决方法

在给定的网格世界中,您从“开始”(0,0)开始。然后您从该点开始走动。如果您到达“ end +1” {(3,2)},则奖励为+1,游戏结束。同样,如果到达“ end -1” {(3,1)},则奖励为-1,游戏结束。但是,在四处移动时,不能将{(1,1)}作为其无效状态。另外,如果您到达{(2,0)和(2,1)}处的任何终端状态“ T”,则游戏将以零奖励结束。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。