手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
网络运维
设计教程
技术频道
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
dqn
dqn专题提供dqn的最新资讯内容,帮你更好的了解dqn。
使用 GPU 与 Keras 进行强化学习
我正在使用 <a href="https://github.com/majadoon/drl_multiuseraccess/blob/master/main.py" rel="nofollow noreferrer">this</a> 代码
作者:佚名 时间:2022-05-29
如何获取 Openai 健身房空间的维度使用 Keras 构建神经网络时要在 DQN 中使用的元组
我使用 Openai Gym 空间构建了一个自定义环境。元组,因为我的观察由以下组成:小时(0-23)、天(1-7)
作者:佚名 时间:2022-05-29
强化学习DQN环境结构
我想知道如何最好地将我的 DQN 代理对其环境所做的更改反馈给自身。 我有一个电池模型,代理可
作者:佚名 时间:2022-05-27
巨大状态空间中的 DQN
我有一个问题,我有 240 个输入状态向量(每个 10 位),两个动作集,一个有四个可能的动作向量(每
作者:佚名 时间:2022-05-27
为什么我的 DQN 模型做出明显错误的决定?
我尝试在python中实现一个由tensorflow模型玩的简单回合制蛇游戏: 代理可以在棋盘上移动(例如 40x40 单
作者:佚名 时间:2022-05-26
我如何在银行抢劫 atari 游戏中获得奖励?
我有点不明白为什么我的代理人在 Atari 游戏“银行抢劫”中没有获得任何奖励。每次银行抢劫后,当我
作者:佚名 时间:2022-05-26
如何使用稳定的基线重置 epsilon
我最近从使用自构建 DQN 转向使用稳定基线。 我确实成功地将已经训练好的代理的 epsilon 重新设置
作者:佚名 时间:2022-05-25
如何在 TF-Agents 框架中提取 DQN 代理的权重?
我正在使用 TF-Agents 解决自定义强化学习问题,我在自定义环境中的某些特征上训练 DQN(使用 TF-Agents 框
作者:佚名 时间:2022-05-25
Keras Double DQN 平均奖励随时间减少且无法收敛
我试图教一个双 DQN 代理运行一个网格世界,其中有一个搜索者(代理)将尝试收集所有随机生成的隐藏
作者:佚名 时间:2022-05-25
如何构建一个输出 1 个离散值和 1 个连续值的 DQN?
我正在为 Open Gym 环境构建 DQN。我的观察空间只有 1 个离散值,但我的行为是: <pre><code>self.action_space
作者:佚名 时间:2022-05-24
使用神经网络更新 R 中的 DQN
我正在尝试使用 <code>neuralnet</code> 包在 R 中实现一个简单的深度 Q 学习案例。 我有一个带有初始随
作者:佚名 时间:2022-05-24
openAI健身房lunarlander连续超参数搜索
我正在尝试从开放的 AI 健身房解决 LunarLander 连续环境(解决 LunarLanderContinuous-v2 意味着在 100 次连续试
作者:佚名 时间:2022-05-23
在深度 Q 网络算法中将列表列表作为输入的最佳方法是什么?
我有自己的 DQN 算法环境。在我的环境中,状态空间由列表列表表示,其中每个子列表的长度可以不同。
作者:佚名 时间:2022-05-23
了解强化学习中的奖励功能atari breakout
我正在尝试了解 Deepmind 实现的 Breakout atari 中的奖励功能。我对奖励有点困惑。它们使用四帧表示每个状
作者:佚名 时间:2022-05-22
如何使用经过训练的 RL 模型进行预测?
我想使用经过训练的 RL 模型进行离散测试预测。 模型是这样构建的: <pre><code>model = Sequential() m
作者:佚名 时间:2022-05-21
如何使用自定义 TF 回调打印出经过测试的 openai 健身房环境的状态?
这是我的功能: <pre><code>scores = dqn.test(env, nb_episodes=1, visualize=False, verbose=1, callbacks=[CustomCallback()]) </co
作者:佚名 时间:2022-05-21
加载保存的模型和优化器以测试 pytorch
我在 ubuntu 18.04 上使用 torch==1.7.1 我想要做的是训练一个强化学习代理并将其发送到另一台服务器,
作者:佚名 时间:2022-05-21
加载的 keras 模型没有预测方法
在DQN算法中,agent训练成功,模型保存为<code>.h5</code>文件。 代理类有一个名为 <code>load</code> 的方法,如
作者:佚名 时间:2022-05-18
Ray rllib 自定义训练过程
我想细化算法的步骤: 默认情况下,操作选择为: a = argmax Q(f(s), a; teta) 然后计算从旧状态到
作者:佚名 时间:2022-05-16
索引 1 超出维度 0 和大小 1 的范围
我开始学习<code>DQN</code>,我正在尝试自己从头开始解决<code>FrozenLake-v0</code>问题并使用<code>Pytorch</code>,
作者:佚名 时间:2022-05-13
上一页
1
2
3
4
下一页
小编推荐
苹果市值2025年有望达4万亿美元
• 苹果iPhone屏幕划痕如何去除?7个法子可
• iPhone SE 4首发!苹果自研5G基带第一个
• 史无前例:iPhone 16系列电池容量公布
• 首批iPhone 16在路上了!苹果已发货 明
• 绝!iPhone16开卖:北京上海用户暴雨中
• iPhone 18用上台积电2nm芯片!但苹果又
• 粉碎不支持iPhone谣言!微信官宣:朋友
热门标签
更多
python
JavaScript
java
HTML
PHP
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot