微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Vowpal Wabbit:为背景强盗设定的动作大小有限制吗?

如何解决Vowpal Wabbit:为背景强盗设定的动作大小有限制吗?

对于Vowpal Wabbit的上下文强盗框架,可以采取的行动数量是否有限制?我假设当前不支持无穷大动作集的问题(例如Rn中的l2球)。但是,有限的一组动作可以有多大?还是仅受运行该库的硬件限制?

我可以想到的潜在问题/担忧是浮点错误(例如,用于预测一组操作中的PMF),缓慢的预测/更新以及特定的探索策略/政策评估方法不能很好地发挥作用一个很大的行动空间。

修改:我正在考虑的操作数在1000-100,000之间

解决方法

我假设当前不支持无穷大操作集的问题

正确,目前尚不支持。

但是,有限的一组动作可以有多大?还是仅受运行该库的硬件限制?

我不认为操作集大小会有具体/人为的限制,因此硬件可能是限制。在内部,操作ID是32位数字,因此2^32肯定有限制。至于其他问题,如果您遇到类似问题,请随时提出一个问题,我们可以与您一起解决这些问题。绝对是应该解决的问题。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。