微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在设计用于强化学习的网格世界时如何表示状态空间

如何解决在设计用于强化学习的网格世界时如何表示状态空间

我想设计一个 5x5 网格世界,在这个世界中,代理可以移动以尝试使用 RL 算法。直观地说,我会用元组 (x,y) 来描述状态,即在 python 中使用列表 [x,y] 或 numpy 数组。然而,这在实现大多数算法时会变得很麻烦。例如,如果我想要一个包含条目 Q(s,a) 的 Q 值矩阵,我不能只使用 numpy 矩阵,其中行索引对应于状态,而必须使用更复杂的东西。

我的问题是枚举所有状态是否是标准的,即 1,2,...,25 而不是使用 (x,y),或者是否有另一种巧妙的方式来表示状态,使处理它们变得容易

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。