摘要: 本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充,主要探讨UCB方法的由来与相关公式的推导。 UCB是一种动作选择策略,主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上,我认为下面这篇文章写的还不错,深入浅出,只 阅读全文
posted @ 2018-07-02 20:35 JinyuBlog 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 在此之前,请先阅读上一篇文章:【RL系列】Multi-Armed Bandit笔记 本篇的主题就如标题所示,只是上一篇文章的补充,主要关注两道来自于Reinforcement Learning: An Introduction 的课后习题。 第一题为Exercise 2.5 (programming 阅读全文
posted @ 2018-07-02 14:07 JinyuBlog 阅读(470) 评论(0) 推荐(0) 编辑