AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介

  • 时间:
  • 浏览:1
  • 来源:uu快3下载网址_uu快3IOS下载_电脑版

注意,MDP除去决策"D",却说 MP。MP是俩个多多多随机过程。从现在具体情况 S下俩个多多多具体情况 S' 通过Pss' 具体情况转移概率矩阵(State transition probability matrix)来完成這個 过程, Pss'却说 概率,却说MP还是随机的。

這個 公式的物理意义也很简单,却说 這個 具体情况的奖励添加所有可能的下俩个多多多具体情况的v(S')和对应的Pss' 的乘积之和,再乘以衰减值γ。

讲MDP的文章和资料非常多,理论和数学公式并能轻易找到,却说本文并全部时会要严谨地推导MDP,却说 想让读者感性地认识MDP以及它对强化学习的重要性。本文主要的参考资料来自于David Silver 教授(DeepMind 的创始人)在UCL的课程以及Richard S. Sutton and Andrew G. Barto的经典书籍:Reinforcement Learning: An Introduction

同样的,所有下俩个多多多具体情况的V函数与对应的Pss'乘积之和再添加采取该行动的奖励就能求得Q函数。

可能加入了行动,却说q函数的物理意义却说 ,在当前策略的指导下,在当前具体情况下,采取行动a却说 所能预期得到的奖励是十几个 。

却说 却说 提到的State transition probability matrix。

这是MDP最重要的的概念。前面可能提到了具体情况值函数(State-Value Function)v(S)(上方简称V函数),却说 没人 机器人,没人 策略指导机器人的行动。

举个栗子:

如下图,俩个多多多学生学习一门课程,有6个具体情况:从Class1 到 Class 3 的学习,到Pass再到去Sleep。上方可能去刷Facebook, 去Sleep可能去酒吧(Pub)喝酒。

其中,什么数字(0.9,0.1)和箭头就代表了Pss' 的数值和具体情况转移的方向。Pss' 实际上是俩个多多多矩阵,如下图:

当然我们都都我们都都我们都都 歌词 更关心策略是如可指导行动的,我们都都我们都都我们都都 歌词 引入行动值函数(Action-Value Function) qπ(s,a) 的概念。看起来是全部时会很眼熟,可能我们都都我们都都我们都都 歌词 通常又叫他q函数,参见却说 的文章Q-Learning。

有了前面MP的铺垫,添加D(Decision)却说 MDP(马可夫决策过程了)。這個 决策是要决策什么呢?却说 要决策行动(Action)

我们都都我们都都我们都都 歌词 的目标Gt是获得奖励,有了R,有了S,有了Pss' 矩阵,实际上我们都都我们都都我们都都 歌词 就并能估算出每俩个多多多S上的Gt:E(Gt|St = S)。

Gt 是却说 定义的:

倒过来组合(公式带入)就能反映该行动下的Q函数和下俩个多多多行动的Q函数的递归关系。

γ为衰减值(0到1之间),我们都都我们都都我们都都 歌词 在却说 Q-Learning中可能介绍过了,就不要 说了。

這個 估算出来的Gt就叫做這個 具体情况S上的Sate Value function(具体情况值函数): v(S)

R

当然上方两图组合(公式的带入)就能反映该具体情况的V函数和下俩个多多多具体情况的V函数的递归关系。

策略是用来指导行动的,不用与描述具体情况间的Pss' 混淆了。当然两者是有联系的,上方可能提到。

V函数和Q函数全部时会递归关系,這個 通过Bellman 等式也都都可不可以 证明,这里却说 再赘述。

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言可能访问我的Steemit主页

本文介绍了MDP的基本概念,然而我们都都我们都都我们都都 歌词 了解MDP的概念是为了指导我们都都我们都都我们都都 歌词 的行动,从而得到最优的结果。换句话说却说 确定最优的策略,得到最多的奖励。再换句话说却说 求最大的V函数和Q函数,什么内容将插进下一篇文章再做介绍。

的物理意义却说 却说 具体情况的所有R的总和。

是這個 具体情况的奖励,S' 是下俩个多多多具体情况(下个可能的具体情况可能不止俩个多多多),P

通过Q函数来求V函数:

有了策略π却说 vπ(s)的物理意义却说 ,在该策略的指导下,在目前這個 具体情况下,却说 并能预期的到的的奖励是十几个 。

在任意俩个多多多具体情况S如可求v(S)呢?需要用到下面這個 公式

再次注意,Pss'反映的是具体情况间的转移概率,π(a|s)是具体情况和行动间的策略概率

利用上方的公式我们都都我们都都我们都都 歌词 都都可不可以 轻易验证例子中pass的V函数:

注意:π(a|study)= π(a|pub) =0.5

(注意pub 那个小孔这里变成了行动,而全部时会具体情况,主却说 为了上方区分sate-value function 和 action-value function)

前面好几篇文章全部时会介绍强化学习(RL),以及强化学习的许多具体算法,却说 强化学习中用到的最重要的理论MDP却还没提到。这篇文章就来得话MDP。

v(S)很明显是俩个多多多递归的过程,也却说 说知道了最终具体情况v(S最终)(上方那个例子是Sleep)就都都可不可以 倒推到初始具体情况的v(S初始),這個 关系却说 用Bellman 等式表达出来的。

奖励R是环境的反馈,当然這個 反馈是与行动A, 相关的。在还没引入行动這個 概念却说 ,不用认为只与具体情况S有关。下图是添加了奖励参数的样子:

RL是要通过对环境不停地试错来学习的,MDP却说 用来描述RL中的环境。

正如却说 提到的,行动A的奖励R不仅跟具体情况S相关,却说 与行动A也是相关的,还是却说 学生学习课程的例子,添加行动和与行动相关的R,如图:

DP是俩个多多多随机的过程,在有了策略 (policy)π却说 才整个过程才有了规律,策略也是俩个多多多概率分布,体现了在给定具体情况下采取行动的概率。

上图,空心代表具体情况,实心代表行动。所有行动的策略π(a|s)与Q函数qπ()的乘积之和就能得到V函数。

G

我们都都我们都都我们都都 歌词 都都可不可以 轻易验证4.3這個 v(s) 是有无正确,如下图(γ=1)