dqn - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

dqndqn专题提供dqn的最新资讯内容，帮你更好的了解dqn。

我正在使用 <a href="https://github.com/majadoon/drl_multiuseraccess/blob/master/main.py" rel="nofollow noreferrer">this</a> 代码

作者：佚名时间：2022-05-29

如何获取 Openai 健身房空间的维度使用 Keras 构建神经网络时要在 DQN 中使用的元组

我使用 Openai Gym 空间构建了一个自定义环境。元组，因为我的观察由以下组成：小时（0-23）、天（1-7）

作者：佚名时间：2022-05-29

强化学习DQN环境结构

我想知道如何最好地将我的 DQN 代理对其环境所做的更改反馈给自身。我有一个电池模型，代理可

作者：佚名时间：2022-05-27

巨大状态空间中的 DQN

我有一个问题，我有 240 个输入状态向量（每个 10 位），两个动作集，一个有四个可能的动作向量（每

作者：佚名时间：2022-05-27

为什么我的 DQN 模型做出明显错误的决定？

我尝试在python中实现一个由tensorflow模型玩的简单回合制蛇游戏：代理可以在棋盘上移动（例如 40x40 单

作者：佚名时间：2022-05-26

我如何在银行抢劫 atari 游戏中获得奖励？

我有点不明白为什么我的代理人在 Atari 游戏“银行抢劫”中没有获得任何奖励。每次银行抢劫后，当我

作者：佚名时间：2022-05-26

如何使用稳定的基线重置 epsilon

我最近从使用自构建 DQN 转向使用稳定基线。我确实成功地将已经训练好的代理的 epsilon 重新设置

作者：佚名时间：2022-05-25

如何在 TF-Agents 框架中提取 DQN 代理的权重？

我正在使用 TF-Agents 解决自定义强化学习问题，我在自定义环境中的某些特征上训练 DQN（使用 TF-Agents 框

作者：佚名时间：2022-05-25

Keras Double DQN 平均奖励随时间减少且无法收敛

我试图教一个双 DQN 代理运行一个网格世界，其中有一个搜索者（代理）将尝试收集所有随机生成的隐藏

作者：佚名时间：2022-05-25

如何构建一个输出 1 个离散值和 1 个连续值的 DQN？

我正在为 Open Gym 环境构建 DQN。我的观察空间只有 1 个离散值，但我的行为是： <pre><code>self.action_space

作者：佚名时间：2022-05-24

使用神经网络更新 R 中的 DQN

我正在尝试使用 <code>neuralnet</code> 包在 R 中实现一个简单的深度 Q 学习案例。我有一个带有初始随

作者：佚名时间：2022-05-24

openAI健身房lunarlander连续超参数搜索

我正在尝试从开放的 AI 健身房解决 LunarLander 连续环境（解决 LunarLanderContinuous-v2 意味着在 100 次连续试

作者：佚名时间：2022-05-23

在深度 Q 网络算法中将列表列表作为输入的最佳方法是什么？

我有自己的 DQN 算法环境。在我的环境中，状态空间由列表列表表示，其中每个子列表的长度可以不同。

作者：佚名时间：2022-05-23

了解强化学习中的奖励功能atari breakout

我正在尝试了解 Deepmind 实现的 Breakout atari 中的奖励功能。我对奖励有点困惑。它们使用四帧表示每个状

作者：佚名时间：2022-05-22

如何使用经过训练的 RL 模型进行预测？

我想使用经过训练的 RL 模型进行离散测试预测。模型是这样构建的： <pre><code>model = Sequential() m

作者：佚名时间：2022-05-21

如何使用自定义 TF 回调打印出经过测试的 openai 健身房环境的状态？

这是我的功能： <pre><code>scores = dqn.test(env, nb_episodes=1, visualize=False, verbose=1, callbacks=[CustomCallback()]) </co

作者：佚名时间：2022-05-21

加载保存的模型和优化器以测试 pytorch

我在 ubuntu 18.04 上使用 torch==1.7.1 我想要做的是训练一个强化学习代理并将其发送到另一台服务器，

作者：佚名时间：2022-05-21

加载的 keras 模型没有预测方法

在DQN算法中，agent训练成功，模型保存为<code>.h5</code>文件。代理类有一个名为 <code>load</code> 的方法，如

作者：佚名时间：2022-05-18

Ray rllib 自定义训练过程

我想细化算法的步骤：默认情况下，操作选择为： a = argmax Q(f(s), a; teta) 然后计算从旧状态到

作者：佚名时间：2022-05-16

索引 1 超出维度 0 和大小 1 的范围

我开始学习<code>DQN</code>，我正在尝试自己从头开始解决<code>FrozenLake-v0</code>问题并使用<code>Pytorch</code>，

作者：佚名时间：2022-05-13

小编推荐

苹果市值2025年有望达4万亿美元