2018 年 7月 2 日随笔档案 - JinyuBlog

2018年7月2日

摘要：本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充，主要探讨UCB方法的由来与相关公式的推导。 UCB是一种动作选择策略，主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上，我认为下面这篇文章写的还不错，深入浅出，只阅读全文

posted @ 2018-07-02 20:35 JinyuBlog 阅读(488) 评论(0) 推荐(0) 编辑

【RL系列】Multi-Armed Bandit笔记补充（一）

摘要：在此之前，请先阅读上一篇文章：【RL系列】Multi-Armed Bandit笔记本篇的主题就如标题所示，只是上一篇文章的补充，主要关注两道来自于Reinforcement Learning: An Introduction 的课后习题。第一题为Exercise 2.5 (programming 阅读全文

posted @ 2018-07-02 14:07 JinyuBlog 阅读(470) 评论(0) 推荐(0) 编辑

JinyuBlog

公告