q-learning - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

q-learningq-learning专题提供q-learning的最新资讯内容，帮你更好的了解q-learning。

从健身房迷你网格中获取状态以进行 Q 学习

我正在尝试根据我在网上找到的 <a href="https://github.com/maximecb/gym-minigrid" rel="nofollow noreferrer">gym-minigrid</a>

作者：佚名时间：2022-05-30

AttributeError: 'Environment1' 对象没有属性 'observation_space'

我正在使用 Keras 构建 ddpg 模型，我按照这里的官方说明输入 <a href="https://keras.io/examples/rl/ddpg_pendulum/" rel

作者：佚名时间：2022-05-30

DQN 训练随着时间的推移显着减慢

我正在乒乓球馆环境中训练 DQN，以复制原始的 DQN“人类级别控制...”论文。我的算法运行良好并在较小

作者：佚名时间：2022-05-30

将历史数据日志文件转换为马尔可夫决策过程 (MDP) 以执行 Q 学习的最佳方法是什么

假设，我有一个历史日志文件，其条目包含每秒记录的一组文件（25,000 个文件，大小从 101KB 到 222MB）传

作者：佚名时间：2022-05-29

IronPython 未按预期返回字典键

我正在尝试在蚱蜢（一种使用 IronPython 作为解释器的参数化设计工具）中创建一个 q 表作为填充随机值

作者：佚名时间：2022-05-28

由于正变量 C 检查收敛

<img src="https://scontent-frt3-1.xx.fbcdn.net/v/t1.15752-9/144543588_219701643201400_7863749908082407652_n.png?_nc_cat=109&ccb=2&amp

作者：佚名时间：2022-05-28

DDPG 不收敛于一个简单的控制问题

我正在尝试使用 DDPG 解决控制问题。这个问题很简单，所以我可以对其离散化版本进行值函数迭代，因

作者：佚名时间：2022-05-27

巨大状态空间中的 DQN

我有一个问题，我有 240 个输入状态向量（每个 10 位），两个动作集，一个有四个可能的动作向量（每

作者：佚名时间：2022-05-27

Q-learning 代理是否需要收敛到实际的状态动作值？

<strong>据我所知，Q-learning 试图找到所有状态和动作的实际状态-动作值。但是，我下面的假设示例似乎表

作者：佚名时间：2022-05-25

“IndexError: index 20 is out of bounds for axis 1 with size 20”是什么意思

我在迷宫环境中进行q学习，但是，在初始阶段，它工作正常，但后来，我得到了以下信息 max_future_q = np.

作者：佚名时间：2022-05-24

使用神经网络更新 R 中的 DQN

我正在尝试使用 <code>neuralnet</code> 包在 R 中实现一个简单的深度 Q 学习案例。我有一个带有初始随

作者：佚名时间：2022-05-24

在 Python 中使用 Q-learning 和 OpenAI-Gym 时如何从地图上取下对象

我正在尝试学习如何在 Python 中将 Q-learning 与 OpenAI-Gym 结合使用，并且我修改了现有的健身房“FrozenLake-v

作者：佚名时间：2022-05-22

深度 Q 学习在算法交易中表现不佳

我使用 keras 框架在 Python 中实现了深度 q 学习，以重现论文的结果。但是，它不起作用。这是一些信息

作者：佚名时间：2022-05-22

优先序列体验回放：了解它是如何工作的

我对优先序列体验重放实施 (PSER) 方法的理解如下：代理将经验添加到转换中，我们计算其 TD-loss

作者：佚名时间：2022-05-18

q 带健身房的桌子使用盒子观察空间

我正在尝试使用这个观察空间运行 q-learning 算法： <pre><code>self.observation_space = spaces.Box(low=np.array([0, 0,

作者：佚名时间：2022-05-15

在损失值增加并变成 NaN 之后，Q-table 值也变成 NaN有人可以解释为什么吗？

<strong>这是我的神经网络模型代码。</strong> <pre><code>self.gamma = 0.95 self.epsilon = 1.0 self.epsilon_min = 0.01 sel

作者：佚名时间：2022-05-15

在pyomo中使用mle进行参数估计

我想使用 pyomo 从行为数据集估计 RL 模型的参数。 <pre><code>#dummy data dis_data = pd.DataFrame([0,1,0,0,0,1], colu

作者：佚名时间：2022-05-14

强化学习中 tf.placeholder 的任何替代 API？

我正在使用 Q-network 制作推车杆的代理我正在看在线讲座，但他正在使用 tensorflow v1（它在 tf_v2 之前有

作者：佚名时间：2022-05-13

Q-learning Vs Deep Q-learning的收敛时间

我想知道在同一问题上运行时 Deep Q-learning 与 Q-learning 的收敛时间。谁能告诉我他们之间的模式？如果用

作者：佚名时间：2022-05-10

如何在数组支持的网格上实现 Q-Learning？

我正在尝试在我使用 <code>Numpy</code> 创建并使用 <code>PyGame</code> 可视化的随机生成的迷宫上实施 Q-Learning

作者：佚名时间：2022-05-08

小编推荐

苹果市值2025年有望达4万亿美元