会员
商店
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Poll的笔记
[三叶草精神] what hurts more,the pain of hard work or the pain of regret?
首页
联系
管理
博客园
随笔 - 74
文章 - 1
评论 - 436
阅读 -
204万
11 2018 档案
[Reinforcement Learning] Policy Gradient Methods
摘要:上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法:
V
θ
(
s
)
≈
V
π
(
s
)
Q
θ
(
s
)
≈
Q
π
(
s
,
a
)
V
θ
(
s
)
≈
V
π
(
s
)
Q
θ
(
s
)
≈
Q
π
(
s
,
a
)
通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略
阅读全文
posted @
2018-11-02 09:52
Poll的笔记
阅读(6811)
评论(3)
推荐(1)
编辑
[Reinforcement Learning] Value Function Approximation
摘要:为什么需要值函数近似? 之前我们提到过各种计算值函数的方法,比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数;对于 MDP 未知的情况,可以通过 MC 以及 TD 方法来获得值函数,为什么需要再进行值函数近似呢? 其实到目前为止,我们介绍的值函数计算方法都是通过查表的方式获取
阅读全文
posted @
2018-11-01 09:46
Poll的笔记
阅读(2032)
评论(0)
推荐(0)
编辑
公告
昵称:
Poll的笔记
园龄:
9年9个月
粉丝:
2515
关注:
14
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
最新随笔
1.[Reinforcement Learning] Policy Gradient Methods
2.[Reinforcement Learning] Value Function Approximation
3.[Reinforcement Learning] Model-Free Control
4.[Reinforcement Learning] Model-Free Prediction
5.[Reinforcement Learning] 动态规划(Planning)
6.[Reinforcement Learning] 马尔可夫决策过程
7.[Reinforcement Learning] 强化学习介绍
8.[Reinforcement Learning] Cross-entropy Method
9.[Deep Learning] 正则化
10.[Deep Learning] 常用的Active functions & Optimizers
积分与排名
积分 - 217503
排名 - 5377
随笔分类
Algorithm(34)
Bash(1)
C/C++(6)
Computational Advertising(1)
Data Structure(6)
Database(3)
Evolutionary Algorithm(2)
Hadoop(4)
Linux(6)
Machine Learning(25)
Math(2)
Network(2)
Python(11)
Recommendation System(1)
Search Engine(3)
Social Network Analysis(1)
Web Development(2)
生活杂谈(1)
更多
随笔档案
2018年11月(2)
2018年10月(5)
2018年9月(1)
2018年6月(3)
2017年1月(1)
2016年7月(1)
2016年6月(1)
2016年5月(4)
2016年4月(2)
2016年3月(2)
2016年2月(2)
2016年1月(1)
2015年12月(5)
2015年11月(3)
2015年10月(1)
2015年9月(5)
2015年8月(8)
2015年7月(8)
2015年6月(19)
更多
常用链接
ACM之家
鸟哥的Linux私房菜
开源中国
推酷
[Andrew Moore] Statistical Data Mining Tutorials
[Online Terminals] tutorialspoint
漫谈机器学习算法
机器学习周报
我爱公开课
我爱机器学习
统计之都
我爱自然语言处理
推荐博友
小坦克
Vamei
阿哈磊
寒江独钓
July的博客
牛吧大数据
淘宝技术部
uc技术博客
石山园
静觅
静逸
阮一峰的网络日志
Dustinsea
酷壳
董的博客
王路情
CAML
JasonDing
火光摇曳
更多
点击右上角即可分享