马尔可夫、马尔可夫链、马尔可夫过程、马尔可夫决策过程

本文总字数:657,阅读预计需要:2分钟

1. 马尔科夫性

本文总字数:657,阅读预计需要:2分钟

无后效性,下一个状态只和当前状态有关而与之前的状态无关,公式描述:P[St+1|St]=P[St+1|S1,...,St]。强化学习中的状态也服从马尔科夫性,因此才能在当前状态下执行动作并转移到下一个状态,而不需要考虑之前的状态。

2. 马尔科夫过程

马尔科夫过程是随机过程的一种,随机过程是对一连串随机变量(或事件)变迁或者说动态关系的描述,而马尔科夫过程就是满足马尔科夫性的随机过程,它由二元组M= (S,P)组成,且满足:S是有限状态集合, P是状态转移概率。整个状态与状态之间的转换过程即为马尔科夫过程。

3. 马尔科夫链

在某个起始状态下,按照状态转换概率得到的一条可能的状态序列即为一条马尔科夫链。当给定状态转移概率时,从某个状态出发存在多条马尔科夫链。强化学习中从某个状态到终态的一个回合就是一条马尔科夫链,蒙特卡洛算法也是通过采样多条到达终态的马尔科夫链来进行学习的。

4. 马尔科夫决策过程

在马尔科夫过程中,只有状态和状态转移概率,没有在状态情况下动作的选择,将动作(策略)考虑在内的马尔科夫过程称为马尔科夫决策过程。简单的说就是考虑了动作策略的马尔科夫过程,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。

因为强化学习是依靠环境给予的奖惩来学习的,因此对应的马尔科夫决策过程还包括奖惩值R,其可以由一个四元组构成M=(S, A, P, R)。强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略,策略就是状态到动作的映射,使得最终的累计回报最大。

posted @   北极星!  阅读(528)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端
· AI Agent开发,如何调用三方的API Function,是通过提示词来发起调用的吗
历史上的今天:
2020-10-27 线性系统和非线性系统
2020-10-27 MATLAB quadprog函数求解二次规划问题
点击右上角即可分享
微信分享提示