微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

强化学习 导论

强化学习

  • 试错延迟收益是强化学习两个最重要最显著的特征

  • 强化学习既表示一个问题,又是一类解决问题的方法,同时还是一个研究此问题及其解决方法领域

  • 区分“问题”和“解决方法”,在强化学习中十分重要。

  • 马尔可夫决策过程包含三方面——感知动作目标

  • 强化学习目的是最大化收益信号,而不是找出数据的隐含结构。

  • 基于一般原则的方法,比如搜索或学习,被定性为“方法”;而基于知识方法则被称为“方法”。

强化学习要素

  • 在个体和环境之外,强化学习系统一般有四个要素:策略收益信号价值函数环境模型

  • 策略:定义学习智能体在给定时间内行为方式

  • 收益信号:定义强化学习问题中的目标

  • 价值函数:定义长期收益,收益信号表明直接意义上的好处。

  • 没有收益就没有价值,而评估价值的唯一目的就是获得更多的收益

  • 环境模型:对环境的模拟,它对环境的行为做出推断。例如给定状态和动作,模型可以预测结果的一个状态一个收益

局限性与适用范围

  • 强化学习十分依赖“状态”这个概念,它既作为策略和价值函数输入,又同时作为模型的输入与输出
  • 强化学习方法,是在与环境互动中学习的一类方法
  • 进化方法就其自身而言并不适用于强化学习问题。

扩展示例:井子祺

  • 前一状态的当前值被更新为更接近后续状态的值,这可以通过先前状态的值移动到稍后状态的值的一小部分来完成。如果我们让 S t S_t St表示贪婪移动之前的状态,而 S t + 1 S_{t+1} St+1表示移动之后的状态,那么将 S t S_t St的估计值更新表示为 V ( S t ) V(S_t) V(St),可以写为:
    V ( S t ) = V ( S t ) + α [ V ( S t + 1 ) − V ( S t ) ] V(S_t) = V(S_t) + \alpha\left[V(S_{t+1})-V(S_t)\right] V(St)=V(St)+α[V(St+1)V(St)]
    α \alpha α为学习率,此更新规则为时序差分学习方法一个例子,因为其变化基于两个连续时间的估计之间的差,即: [ V ( S t + 1 ) − V ( S t ) ] \left[V(S_{t+1})-V(S_t)\right] [V(St+1)V(St)]

本章小节

  • 强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法
  • 强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和收益定义学习型智能体与环境的互动过程。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐