增强学习----介绍

PS：本文为阅读周志华《机器学习》笔记

介绍-------任务与奖赏

我们如果要种西瓜，那要经过很多步骤后，才有可能种出一田好瓜，当然也有可能种出的瓜很差，或者直接给种死了。那么将种瓜的过程抽象出来，总结出一系列好的操作，归为种瓜策略，那么，这个过程，就是“增强学习”。

这是一个简单的图示，其中：

机器处于环境中，状态空间为X，比如此例，状态空间可以是健康，缺水，凋亡等等，小x为状态空间X中单个状态。

机器所能采取的动作为a，比如：浇水，不浇水；所有动作构成动作集合A。

某个动作a作用在某个状态x上，则潜在的转移函数P将使得环境从当前状态按照某种概率转移到另一个状态。如：缺水状态，选择浇水，则有概率转移到健康状态。

那么，在转移到另一个状态时（另一个状态也可以是原本的状态），环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏，如：健康为+1，缺水为-1，凋亡为-100。

综合起来，增强学习任务对应了一个四元组E=<X,A,P,R>，

其中，P:X*A*X->R;指定了状态转移概率。R：X*A*X->指定了奖赏；

思考：X与A之间的叉叉符号是什么关系？

环境中状态的转移、奖赏的返回时不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。

下图给出一个例子：仔细看在每个状态下，采取的动作a后状态转移的概率p和所获得的奖赏r；

机器要做的就是通过在环境中不断地尝试而学得一个“策略”π，根据这个策略，在状态x下就知道要执行的动作a=π(x),例如:看到缺水状态，就知道要选择浇水动作；

策略有两种表示方法：一是将策略表示为函数π：X->A,确定性策略常用这种表示方法；

另一种是概率表示π：X *A ->概率，随机性策略常用这种表示；

思考：什么是确定性策略，什么是随机性策略？

那么，π(x,a)为在一个状态x下选择某个动作a的概率，必须有；这里的意思是，在缺水状态下，选择浇水这个动作的概率之和为1.概率是指选择动作的概率；

思考：p是表示状态转移概率，为何在状态x下选择某个动作的转移概率之和也为1？巧合还是有关联

学习的目的就是找到使长期积累奖赏最大化的策略，长期积累有多种计算方式，常用的有“T步累积奖赏”和“伽马折扣累积奖赏”。其中rt表示第t步获得的奖赏值，E表示对所有的随机变量求期望；

与监督学习的差别：

“状态”对应监督学习中的“示例”，就是去掉标记特征的样本。
“动作”对应为“标记”
“策略”对应为“分类器”

从这个意义上说，增强学习可以看作具有“延迟标记信息”的监督学习问题。

posted @ 2016-05-31 09:15 YC_Yuan 阅读(2332) 评论(0) 收藏举报

刷新页面返回顶部