摘要: $\gamma$ $$ \alpha = \sum_{i = 1}^{N} \left(M_{i} + \frac{x_i}{p} \right) $$ 阅读全文
posted @ 2018-07-11 13:45 JinyuBlog 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 推荐阅读顺序: Reinforcement Learning: An Introduction (Drfit) 有限马尔可夫决策过程 动态编程笔记 Dynamic programming in Python 本篇 马尔可夫决策过程 马尔可夫决策(MDP)过程为强化学习(RL)提供了理论基础,而动态编 阅读全文
posted @ 2018-07-11 13:25 JinyuBlog 阅读(5061) 评论(0) 推荐(1) 编辑
摘要: 本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Introduction (Drfit) 的2.7,2.8的内容。为了更深入一点了解UCB策略,可以随后阅 阅读全文
posted @ 2018-07-04 10:21 JinyuBlog 阅读(2096) 评论(0) 推荐(0) 编辑
摘要: 本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充,主要探讨UCB方法的由来与相关公式的推导。 UCB是一种动作选择策略,主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上,我认为下面这篇文章写的还不错,深入浅出,只 阅读全文
posted @ 2018-07-02 20:35 JinyuBlog 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 在此之前,请先阅读上一篇文章:【RL系列】Multi-Armed Bandit笔记 本篇的主题就如标题所示,只是上一篇文章的补充,主要关注两道来自于Reinforcement Learning: An Introduction 的课后习题。 第一题为Exercise 2.5 (programming 阅读全文
posted @ 2018-07-02 14:07 JinyuBlog 阅读(458) 评论(0) 推荐(0) 编辑
摘要: 这是我学习Reinforcement Learning的一篇记录总结,参考了这本介绍RL比较经典的Reinforcement Learning: An Introduction (Drfit) 。这本书的正文部分对理论的分析与解释做的非常详细,并且也给出了对结论详尽的解析,但是把问题的解决和实现都留 阅读全文
posted @ 2018-06-29 10:56 JinyuBlog 阅读(6088) 评论(0) 推荐(1) 编辑
摘要: 在此记录一下python实现图片转视频的方法,opencv速度还是比较块的,1300张400x400图片只花了1.5s 阅读全文
posted @ 2018-05-31 17:52 JinyuBlog 阅读(30082) 评论(0) 推荐(2) 编辑
摘要: 本篇文章主要从一个简单的寻路问题开始逐步的探究Q-learning的实现并深入Q-Table在数学上的收敛问题。 阅读全文
posted @ 2018-05-31 12:20 JinyuBlog 阅读(1009) 评论(0) 推荐(0) 编辑