强化学习 - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

强化学习强化学习专题提供强化学习的最新资讯内容，帮你更好的了解强化学习。

强化学习模仿学习于robot[通俗易懂]

从Google的alphago以绝对优势接连战胜人类围棋中的佼佼者(李世石, 柯洁)之后，这总结果当然是震撼的，从此人工智能声名大噪。但是纵使目前能使机器智力超...

作者：全栈程序员站长时间：2022-11-05

强化学习系列七--DDPG

DDPG（deep deterministic policy gradient），深度确定性策略梯度算法。

作者：languageX 时间：2022-10-21

强化学习系列八--PPO

回顾上文中的DDPG，DDPG是源于DQN，它使用神经网络替换maxQ(s',a')的功能来解决连续空间问题。也就是说DDPG的Actor网络输出的是一个动作，...

作者：languageX 时间：2022-10-21

强化学习系列一--基础概念

最近了解了强化学习方面的知识，准备进行下整理和总结。本文先介绍强化学习中一些基础概念。

作者：languageX 时间：2022-10-21

强化学习系列三-gym介绍和实例

gym是openAI下的一个开发和对比强化学习算法的工具包，内部提供了强化学习需要的环境。

作者：languageX 时间：2022-10-21

强化学习系列二--算法概念

上文我们已经理解强化学习的基础概念以及其目标是找到一个策略最大化未来累计奖励。同时介绍了几种常用的寻找最优策略的方法。在强化学习中还会将这些方法分...

作者：languageX 时间：2022-10-21

强化学习系列四-PolicyGradient实例

上文我们介绍了使用简单的Random Guessing Algorithm & Hill Climbing 算法来解决CartPole问题，主要在决策动作这个步...

作者：languageX 时间：2022-10-21

OpenAI用DOTA团战的强化学习算法，教会这只12万美元机械手转方块

OpenAI用DOTA团战的强化学习算法，教会这只12万美元机械手转方块栗子夏乙发自凹非寺量子位报道 | 公众号 QbitAI五根手指、24个关节，这只机械手从结构到大小，方方面面都像极了人类的手。在OpenAI的实验室里，它

作者：佚名时间：2022-12-23

StarCraft Multi-Agent Challenge (SMAC)——多智能体强化学习仿真benchmark

StarCraft包括Macromanagement和Micromanagement。其中macro包括宏观和微观的操作，是选手级别的，目的在于赢得完整的比赛胜利；而micro仅包含微观的操作，用于训练和验证marl算法。SMAC基于的是StarCraftIILearningEnvironment(PySC2)和StarCraftII的API搭建的平台，PySC2和S

作者：佚名时间：2022-10-15

2. 金融分析知识强化学习部分

视频课件位置：https://gitee.com/qiangchen_sh/stock-predictionree/master/引用baseline来源：https://github.com/huseinzol05/Stock-Prediction-Models（强烈推荐）整体大纲内容。1深度学习作金融数据分析目标：数据+代码实战（Pytorch、TensorFlow）模型：XBoost、LSTM、Reinforcem

作者：佚名时间：2022-10-14

强化学习笔记

主要根据B站上王树森强化学习的课程整理而成，也看了一些博主的博客，主要是方便自己回顾，加强学习理解。主要博客和网址：强化学习https://www.cnblogs.com/kailugaji/p/15354491.html强化学习总结 https://www.cnblogs.com/steven-yang/p/6649213.html动态规划 https:/

作者：佚名时间：2022-10-08

flex强化学习

Flex学习一Flex布局是什么？Flex是FlexibleBox的缩写，意为"弹性布局"，用来为盒状模型提供最大的灵活性。任何一个容器都可以指定为Flex布局。.box{display:flex;}行内元素也可以使用Flex布局。.box{display:inline-flex;}Webkit内核的浏览器，必须加上-we

作者：佚名时间：2022-09-09

GitHub：Python 强化学习实用指南

GitHub地址：https://github.com/PacktPublishing/Hands-On-Reinforcement-Learning-with-Python

作者：佚名时间：2022-09-07

强化学习路线图

人工智能是21世纪最激动人心的技术之一。人工智能，就是像人一样的智能，而人的智能包括感知、决策和认知(从直觉到推理、规划、意识等)。其中，感知解决what，深度学习已经超越人类水平；决策解决how，强化学习在游戏和机器人等领域取得了一定效果；认知解决why，知识图谱、因果推理、持续学

作者：佚名时间：2022-09-07

强化学习PARL——1. 简单认识

这个教程参考的是百度PaddlePaddle的RL系列教程：https://aistudio.baidu.com/aistudio/projectdetail/1445501背景介绍第一章节属于基础内容，第二课的数学知识总结的很好1.开始1.1概念认识1.1.1强化学习vs其他强化学习与监督学习的区别强化学习、监督学习、非监督

作者：佚名时间：2022-09-07

强化学习——股票预测项目复现

1.背景介绍之前学习百度强化学习7日打卡营-世界冠军带你从零实践时候，最后留下的一个大作业是股票预测环境：https://github.com/kh-kim/stock_market_reinforcement_learning，由于给出的一个推荐github项目是四年前，时间太久远，所以找了另一个，还是中文的，而且步骤看起来很详细。

作者：佚名时间：2022-09-07

(元)强化学习相关开源代码

本地代码：https://github.com/lucifer2859/meta-RL元强化学习简介：https://www.cnblogs.com/lucifer1997/p/13603979.html一、Meta-RL1、LearningtoReinforcementLearn：CogSci2017https://github.com/awjuliani/Meta-RL环境：TensorFlow，CPU；任务：Dependent(Easy,Medium,

作者：佚名时间：2022-09-07

强化学习在量化交易中的应用

强化学习在量化交易中的应用如何构建环境如何定义state如何定义action如何定义reward如何操作数据FinRL框架核心部件简介ElegantRL图中Agent.py中的智能体使用Net.py中的网络，并且通过与Env.py中的环境进行交互在Run.py中进行了训练。https://github.com/AI4Fin

作者：佚名时间：2022-09-07

标准化奖励以在强化学习中生成回报

问题是关于香草的,非批式的强化学习.基本上是在Sutton’sbook中定义的here.我的模型训练,(呜呼！)尽管有一个使我困惑的元素.背景：在奖励持续时间的环境中(例如平衡),我们每步奖励(例如)1.插播之后,在将这一系列的1发送到训练步骤之前,我们进行标准的折现和归一化以获取回报：retu

作者：佚名时间：2022-09-05

《强化学习精要核心算法与TensorFlow实现》【1】

-->不一定要沿梯度方向下降？通过不同的方向来探测/估计当前地形？ -->如何衡量zigzig的程度——如果从历史的迭代中学习掌握规律？ --> 动量方法-->数据驱动~每个方向算

作者：佚名时间：2022-09-05

上一页12 3 4 5 6 7 8 下一页

小编推荐

苹果市值2025年有望达4万亿美元