q-learning - 编程之家

我一直在使用稳定的基准和具有3个动作的离散环境来制作DQN。我正在使用RL教程<a href="https://github.

在软演员评论家中，最小q值的使用方式类似于double-q学习，以避免最大化偏差。即使<a href="https://arxiv.org

我还是ML的新手，最近我学习了Q-Learning并对其进行了手动编码（不使用Keras或TensorFlow之类的库），而我

我正在研究在OSMNX节点上导航的Q学习算法。我的目标是为Q学习代理提供一个基于步骤的上下文，其中在

我想使用相同的代理来解决卡特波和杂技演员。我在一本书的帮助下编写了此代码，但我注意到它无法

在强化学习框架中，我对奖励以及它与状态的关系有点困惑。例如，在 Q-learning 中，我们有以下更新 Q

我正在使用TensorFlow进行有关DQN的教程 <a href="https://www.tensorflow.org/agents/tutorials/2_environments_tutorial" rel="nofo

我想为Multi-Agent创建一个Q表。单个代理的action_space = 4，state_space =12。如果我将代理的数量（例如2个）乘

有人实施过深度Q学习来解决网格世界问题，其中状态是玩家的[x，y]坐标，目标是达到某个坐标[A，B]。

我正在尝试实现基于Q学习的最短路径算法。但是，有时我的路径与基于相同起点和目的地的经典最短路

我正在尝试遵循有关QLearning的pytorch <a href="https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html" rel="no

冬天在这里。当您进行疯狂投掷时，您和您的朋友们在公园的飞盘周围抛掷，使飞盘离开湖中。水大部

我需要训练RL代理，该代理必须控制一些开关。假设我们有n个开关，它们可以打开（1）或关闭（0）。我

这是我对CartPole-v0的DQN和DDQN的实现，我认为是正确的。 <pre><code>import numpy as np import torch import torch.nn a

我已经由Chainer训练了一个深入的Q学习模型： <pre><code>from ddqn import Q_Network,Environment1 from chainer import da

我已经使用Chanier训练了一个深度Q学习模型： <pre><code>class Q_Network (chainer.Chain): def __init__(self, i

开发人员我找到了一堆 DQN 实现的例子，但因为我不是 TensorFlow 专家，所以我有点困惑。让

我正在尝试使用深度 q 网络来解决一个优化问题，其中我的状态（即 21 个输入）与操作（即 20 个输出）

我正在研究一个 RL 问题，即代理实现采取“a”等动作的奖励的时间在像“t”这样的时间步中是随机的

我在 Java 中尝试使用 Q-Learning（强化学习）进行 Pacman 游戏。但是，我可以看到游戏自动暂停了几秒钟，