如何解决Gridworld中的终端状态是什么?
我正在学习马尔科夫决策过程。 我不知道在哪里标记终端状态。
在4x3网格世界中,我用T标记了我认为正确(可能是错误的)的终端状态。 Pic
terminals=[(3,2),(3,1)]
有人可以解释它是如何工作的吗?
解决方法
在给定的网格世界中,您从“开始”(0,0)开始。然后您从该点开始走动。如果您到达“ end +1” {(3,2)},则奖励为+1,游戏结束。同样,如果到达“ end -1” {(3,1)},则奖励为-1,游戏结束。但是,在四处移动时,不能将{(1,1)}作为其无效状态。另外,如果您到达{(2,0)和(2,1)}处的任何终端状态“ T”,则游戏将以零奖励结束。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。