DQN(Deep Q-learning)入门教程(一)之强化学习介绍

什么是强化学习?

强化学习(Reinforcement learning,简称RL)是和监督学习,非监督学习并列的第三种机器学习方法,如下图示:

首先让我们举一个小时候的例子:

你现在在家,有两个动作选择:打游戏读书。如果选择打游戏的话,你就跑到了网吧,选择读书的话,就坐在了书桌面前。你爸妈下班回家,如果发现你在网吧,就会给你一套社会主义的铁拳,如果你在书桌面前的话,就会买根棒棒糖给你吃。

首先,你在家的时候并不知道选择哪一个动作,因此你可能会选择study或者game。但是,当你接受了多次社会主义的毒打和奖励棒棒糖之后,你会发现选择game会得到惩罚,选择study你会得到奖励。因此当你再次处于”home“状态时,你就会偏向于选择“study”。(这便是强化学习!!)

强化模型可以建模如下:

以上面的为例子,对如下进行说明:

  • Agent:Agent也就是执行个体,我们可以操作执行个体做出不同的选择(也就是动作Action)。

    图中的“你”

  • Environment:我们研究的环境,它有一个一个的状态(State)。

    图中你所处的位置状态:网吧or书桌

  • Action:当Agent做出动作(action)的时候,环境会发生改变也就是State会发生改变。

    选择Study或者Game后你会处于书桌或者网吧的状态

  • Reward:当State发生改变时,环境会给予一定的奖励(奖励可为正负)。

    拳头or棒棒糖

总的来说,就是Agent在t时刻处于st状态,它会做出某一个动作ai,导致t+1的状态为st+1,同时在t+1时刻得到的奖励为Rt+1

接下来我们再介绍强化学习中稍微复杂一点的概念。这些概念是以后的基础,也比较简单,很容易理解。

策略(Policy)π

当Agent处于某一个state的时候,它做的Action是不确定的,例如你可以选择study也可以选择game,也就是说你在某一个状态是以一定的概率去选择某一个action。也就是说,策略的选择是一个条件概率π(a|s),这里的π与数序中的π没有任何关系,他只是代表一个函数而已(因此也可以写作f(a|s))。

π(a|s)=P(At=a|St=s)

此函数代表:在状态s时采取动作a的概率分布。

价值(value)

前面我们说到过奖励,当Agent在t时刻执行某个动作时,会得到一个Rt+1。我们可以想一下蝴蝶效应,这个Action会影响Rt+1,那么他会不会影响Rt+2Rt+3Rt+n呢?很可能会的,比如说在电游中,你所做的某个选择肯定会对接下来的游戏产生影响,这个影响可以深远,也可以没那么深渊(对,我说的就是隐形守护者,mmp),因此状态价值函数可以表示为:

vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s)

vπ(s)与策略函数π有关,可以理解为当Agent以策略π运行时,状态s的价值是多少。也就是在此状态下,我能够得到多少回报。

在后面我们会详细的对这个函数进行分析。

γ 奖励衰减因子

在上面的价值函数中,有一个变量γ ,即奖励衰减因子,在[0,1]之间。如果为0,则是贪婪法,即价值只由当前的奖励决定,如果是1,则所有的后续状态奖励和当前奖励一视同仁。一般来说取0到1之间的数。

环境的状态转化模型

由于在某个状态下,执行一定的action,能够达到新的一个状态statet+1,但是statet+1不一定是唯一的。环境的状态转化模型,可以理解为一个概率状态机,它是一个概率模型,即在状态t下采取动作a,转到下一个状态s的概率,表示为Pssa

探索率ϵ

怎么说的探索率呢?它主要是为了防止陷入局部最优。比如说目前在s1状态下有两个a1,a2。我们通过计算出,发现执行a1的动作比较好,但是为了防止陷入局部最优,我们会选择以 ϵ 的概率来执行a2,以1ϵ 的概率来执行a1。一般来说,ϵ 随着训练次数的增加而逐渐减小。

马尔科夫决策过程(MDP)

前面我们说过某个状态执行action可以转换成另外一个state,可以用概率表示为:Pssa。那么这个概率与什么有关呢?认真的考虑下,毋庸置疑,与目前的状态sta有关,但是同样,它可能也与上一个状态st1,上上个状态st2……有关,但是如果真的这样考虑,就复杂了。

因此我们将问题进行一定的简化,简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态s的概率仅与当前状态s有关,与之前的状态无关(也就是说未来与当前有关,与过去无关)。用公式表示就是:

Pssa=P(St+1=s|St=s,At=a)

同时对于针对于策略 π 我们也做MDP假设,也就是说,当前Agent所作的策略仅仅与当前状态有关,与以前的状态都没有关系,因此:

π(a|s)=P(At=a|St=s)

同样针对于价值函数v,有:

vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s)

价值函数与Bellman方程

之所以我们来分析这个价值函数,是因为它是强化学习的核心,为什么Agent能够自动学习,自动选择某一个Action,其中一个量化标准就是它:

vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s)

令:

(1)Gt=Rt+1+γRt+2+=k=0γkRt+k+1

Gt代表Return,代表Agent从某一个状态St开始直到终止状态时所有奖励的有衰减的之和。

则有:

vπ(s)=Eπ(Gt|St=s)

So:

(2)vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+|St=s)=Eπ(Rt+1+γ(Rt+2+γRt+3+)|St=s)=Eπ(Rt+1+γGt+1|St=s)=Eπ(Rt+1+γvπ(St+1)|St=s)

因此:

vπ(s)=E[Rt+1+γv(St+1)|St=s]

上述方程便是Bellman方程的基本形态。因此我们可以知道,当前状态的价值与奖励Rt+1和下一个状态的价值有关。

动作价值函数

这里再说一下动作价值函数,它代表着在当前state下,做某一个action的价值:

qπ(s,a)=Eπ(Gt|St=s,At=a)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s,At=a)

同样,我们利用Bellman方程,可以将上式转化成:

qπ(s,a)=Eπ(Rt+1+γqπ(St+1,At+1)|St=s,At=a)

动作价值函数与状态价值函数之间可以相互进行转化:

vπ(s)=aAπ(a|s)qπ(s,a)qπ(s,a)=Rsa+γsSPssavπ(s)

图示说明如下:图来自(强化学习(二)马尔科夫决策过程(MDP)

综上可得:

(3)vπ(s)=aAπ(a|s)(Rsa+γsSPssavπ(s))qπ(s,a)=Rsa+γsSPssaaAπ(a|s)qπ(s,a)

总结

OK,强化学习的入门介绍就到这里,通过这篇博客,我们知道了:

  • 策略 π :表示在某一个状态下,action的概率分布函数π(a|s)=P(At=a|St=s)

  • γ :奖励衰减因子,表示后续奖励的占比

  • 探索率ϵ:表示Agent以 ϵ 的概率来随机选择action

  • 状态转化模型:表示执行某个action后,状态变化的概率函数Pssa=P(St+1=s|St=s,At=a)

  • 状态价值函数:表示 t 时刻的状态 st 能获得的未来回报(return)的期望vπ(s)=E[Rt+1+γ(St+1)|St=s]

  • 动作价值函数:表示 t 时刻的状态 s,选择一个 action 后能获得的未来回报(return)的期望

    qπ(s,a)=Eπ(Rt+1+γqπ(St+1,At+1)|St=s,At=a)

参考

posted @   渣渣辉啊  阅读(17901)  评论(6编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
点击右上角即可分享
微信分享提示