会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Clivia Du
A student of CS who enjoys electronic design
博客园
首页
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
10
下一页
2022年7月10日
强化学习-学习笔记13 | 多智能体强化学习
摘要:
这一篇介绍重头戏:多智能体强化学习。多智能体要比之前的单智能体复杂很多。但也更有意思。
阅读全文
posted @ 2022-07-10 00:33 climerecho
阅读(1741)
评论(0)
推荐(0)
编辑
2022年7月9日
强化学习-学习笔记12 | Dueling Network
摘要:
这是价值学习高级技巧第三篇,前两篇主要是针对 TD 算法的改进,而Dueling Network 对 DQN 的结构进行改进,能够大幅度改进DQN的效果。
阅读全文
posted @ 2022-07-09 13:58 climerecho
阅读(672)
评论(0)
推荐(0)
编辑
2022年7月8日
强化学习-学习笔记11 | 解决高估问题
摘要:
这是 价值学习高级技巧第二篇。在实际应用中DQN会引起高估,进而影响动作的正确选择。本文介绍的高估问题解决办法为:Target Network & Double DQN.
阅读全文
posted @ 2022-07-08 17:31 climerecho
阅读(839)
评论(0)
推荐(1)
编辑
强化学习-学习笔记10 | 经验回放
摘要:
Experience Replay 经验回放。价值学习高级技巧第一篇。之前讲解的 价值学习的方法 都很简单,所以实现效果并不优秀。接下来会介绍一些高级的技巧,可以大幅度提高 DQN 的表现。Experience Replay 是最重要的技巧。
阅读全文
posted @ 2022-07-08 11:43 climerecho
阅读(1152)
评论(0)
推荐(0)
编辑
2022年7月7日
强化学习-学习笔记9 | Multi-Step-TD-Target
摘要:
这篇笔记依然属于TD算法的范畴。Multi-Step-TD-Target 是对 TD算法的改进。在调整合适的i情况下,多步较于单步性能好很多。
阅读全文
posted @ 2022-07-07 20:39 climerecho
阅读(889)
评论(0)
推荐(1)
编辑
强化学习-学习笔记8 | Q-learning
摘要:
上一篇笔记认识了Sarsa,可以用来训练动作价值函数Qπ;本篇来学习Q-Learning,这是另一种 TD 算法,用来学习 最优动作价值函数 Q-star,这就是之前价值学习中用来训练 DQN 的算法。
阅读全文
posted @ 2022-07-07 16:09 climerecho
阅读(601)
评论(1)
推荐(2)
编辑
强化学习-学习笔记7 | Sarsa算法原理与推导
摘要:
Sarsa算法 是 TD算法的一种,之前没有严谨推导过 TD 算法,这一篇就来从数学的角度推导一下 Sarsa 算法。注意,这部分属于 TD算法的延申。
阅读全文
posted @ 2022-07-07 12:23 climerecho
阅读(788)
评论(1)
推荐(1)
编辑
2022年7月6日
强化学习-学习笔记6 | 蒙特卡洛算法
摘要:
Monte Carlo Algorithms. 蒙特卡洛算法是一大类随机算法,又称为随机抽样或统计试验方法,通过随机样本估计真实值,用随机逼近精确。
阅读全文
posted @ 2022-07-06 18:11 climerecho
阅读(1234)
评论(0)
推荐(2)
编辑
强化学习-学习笔记5 | AlphaGo
摘要:
从强化学习的角度理解一下AlphaGo的实现思路,机器是如何在围棋这样高复杂度的情境下战胜人类的。通过这个实例加深对价值网络和策略网络的理解,并熟悉一下蒙特卡洛树搜索方法 MCTS。
阅读全文
posted @ 2022-07-06 11:56 climerecho
阅读(624)
评论(3)
推荐(1)
编辑
2022年7月5日
强化学习-学习笔记4 | Actor-Critic
摘要:
RL中的价值学习和策略学习分别基于不同的思路完成对 agent 的自动控制,而actor-critic将两者结合在一起,策略网络扮演运动员的角色,价值网络扮演裁判的角色,分别训练,得到较为满意的结果。
阅读全文
posted @ 2022-07-05 18:37 climerecho
阅读(1679)
评论(0)
推荐(2)
编辑
上一页
1
2
3
4
5
6
7
8
···
10
下一页
公告