如何解决有银行的多臂强盗的 tensorflow 例子吗?
我一直在研究一些 Tensorflow 代理 examples,想知道是否有人知道如何/在何处向环境中添加银行/藏匿处的好示例,以便在代理用完时剧集提前结束的资金?
似乎将逻辑添加到重置函数是一个不错的选择,但评论似乎非常坚决不这样做。
# These two functions below should not be overridden by subclasses.
def _reset(self):
"""Returns a time step containing an observation."""
return ts.restart(self._observe(),batch_size=self.batch_size)
def _step(self,action):
"""Returns a time step containing the reward for the action taken."""
reward = self._apply_action(action)
return ts.termination(self._observe(),reward)
我最初的做法是:
def _reset(self):
"""Returns a time step containing an observation."""
self.bank += reward
return ts.restart(self._observe(),batch_size=self.batch_size)
从_take_action(...) 中其他地方定义的银行中减去。这似乎在运行,但我一直在阅读一些文档,我不确定它的行为方式是否符合我的想法。这是在 MAB 问题中添加银行的合适方法吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。