上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 18 下一页
摘要: 对于马尔可夫决策过程,环境的知识是已知的,各种转移概率是知道,在有限的策略空间和状态空间下是可以求解的。 本处提供了两种优化策略的通用方式,主要还是迭代策略在该场景中的应用,并无太多特殊之处。 阅读全文
posted @ 2018-12-12 10:44 Lucas_Yu 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 强化学习相关的资料 阅读全文
posted @ 2018-12-10 15:08 Lucas_Yu 阅读(73) 评论(0) 推荐(0) 编辑
摘要: PS : 本书的符号标记基本严格遵守相关数学领域的惯例,对于变量,大写字母表示随机变量,小写字母表示普通变量;对于确定性函数而言均使用小写字母表示函数名及参数名;关于随机变量的运算通常也用大写字母表示如期望。 强化学习马尔科夫链决策过程(MDP),这与马尔科夫链不同,也隐马尔科夫链不同,MDP模型增加了中间行为抽象,行为具有改变状态的能力,是状态的改变生成机理,描述了状态是通过什么行为而发生改变的,像增加了隐层一样,而且行为具有主动性,而马尔科夫链只是描述了一种状态之间的被动切换关系。 阅读全文
posted @ 2018-12-10 00:36 Lucas_Yu 阅读(409) 评论(0) 推荐(0) 编辑
摘要: jupyter 使用 细节 阅读全文
posted @ 2018-12-09 14:04 Lucas_Yu 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 条件分布 阅读全文
posted @ 2018-12-06 23:18 Lucas_Yu 阅读(309) 评论(1) 推荐(0) 编辑
摘要: 1. 花式查找并查集 阅读全文
posted @ 2018-12-06 18:46 Lucas_Yu 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 图遍历算法(迭代)比较 阅读全文
posted @ 2018-12-06 13:53 Lucas_Yu 阅读(888) 评论(1) 推荐(0) 编辑
摘要: Python: __new__ magic method explained 阅读全文
posted @ 2018-12-06 12:13 Lucas_Yu 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 漫谈递归:循环与迭代 理清递归、迭代、循环的概念 感谢 参考或原文 感谢 参考或原文 先摘抄“为之漫笔”对这几个概念的一段理解: loop、iterate、traversal和recursion这几个词是计算机技术书中经常会出现的几个词汇。众所周知,这几个词分别翻译为:循环、迭代、遍历和递归。乍一看 阅读全文
posted @ 2018-12-06 01:12 Lucas_Yu 阅读(1939) 评论(0) 推荐(0) 编辑
摘要: 广度优先搜索算法 阅读全文
posted @ 2018-12-05 22:18 Lucas_Yu 阅读(173) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 18 下一页