摘要:
强化学习相关的资料 阅读全文
摘要:
PS : 本书的符号标记基本严格遵守相关数学领域的惯例,对于变量,大写字母表示随机变量,小写字母表示普通变量;对于确定性函数而言均使用小写字母表示函数名及参数名;关于随机变量的运算通常也用大写字母表示如期望。
强化学习马尔科夫链决策过程(MDP),这与马尔科夫链不同,也隐马尔科夫链不同,MDP模型增加了中间行为抽象,行为具有改变状态的能力,是状态的改变生成机理,描述了状态是通过什么行为而发生改变的,像增加了隐层一样,而且行为具有主动性,而马尔科夫链只是描述了一种状态之间的被动切换关系。 阅读全文