摘要: 本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Introduction (Drfit) 的2.7,2.8的内容。为了更深入一点了解UCB策略,可以随后阅 阅读全文
posted @ 2018-07-04 10:21 JinyuBlog 阅读(2116) 评论(0) 推荐(0) 编辑