2018 年 7月 4 日随笔档案 - JinyuBlog

2018年7月4日

【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略

摘要：本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法，涉及理论部分较少，所以请先阅读Reinforcement Learning: An Introduction (Drfit) 的2.7，2.8的内容。为了更深入一点了解UCB策略，可以随后阅阅读全文

posted @ 2018-07-04 10:21 JinyuBlog 阅读(2154) 评论(0) 推荐(0) 编辑

JinyuBlog

公告