会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
//
// // //
努力的孔子
上一页
1
···
37
38
39
40
41
2019年2月22日
强化学习8-时序差分控制离线算法Q-Learning
摘要: Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢? 这里已经必须引入新的概念 时序差分控制算法的分类:在线和离线 在线控制算法:一直使用一个策略选择动作和更新价值函数,如Sarsa 离线控制算法:两个策略,一个选择新的动作,一个更新价值函数,如Q-Learning Q
阅读全文
posted @ 2019-02-22 09:20 努力的孔子
阅读(885)
评论(0)
推荐(0)
编辑
2019年2月20日
强化学习7-Sarsa
摘要: 之前讲到时序差分是目前主流强化学习的基本思路,这节就学习一下主流算法之一 Sarsa模型。 Sarsa 是免模型的控制算法,是通过更新状态动作价值函数来得到最优策略的方法。 更新方法 Q(S,A)=Q(S,A)+α(R+γQ(S′,A′)−Q(S,A)) // 回顾一下蒙特卡罗的更新方式 Q(S,A
阅读全文
posted @ 2019-02-20 18:00 努力的孔子
阅读(1218)
评论(0)
推荐(2)
编辑
2019年2月18日
强化学习6-MC与TD的比较-实战
摘要: 可以看到 随着学习率的增大,效果越来越好,当学习率为0.5时,已经明显过拟合了 这个是单步的,书上是单回合的,所以不同,后续有空会更新代码 随机行走有个特殊性:两个终点,有一个终点奖励为0,也就是说在前几个回合中,单步更新的TD如果一开始向左走,需要好多步才能到达右边终点,而MC由于是整个回合,要么
阅读全文
posted @ 2019-02-18 17:26 努力的孔子
阅读(1170)
评论(0)
推荐(0)
编辑
2019年2月17日
强化学习4-时序差分TD
摘要: 之前讲到强化学习在不基于模型时可以用蒙特卡罗方法求解,但是蒙特卡罗方法需要在每次采样时生产完整序列,而在现实中,我们很可能无法生成完整序列,那么又该如何解决这类强化学习问题呢? 由贝尔曼方程 vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s) 推导可得 vπ(s)=Eπ(Rt+
阅读全文
posted @ 2019-02-17 22:16 努力的孔子
阅读(616)
评论(0)
推荐(1)
编辑
强化学习3-蒙特卡罗MC
摘要: 之前讲到强化学习可以用马尔科夫决策过程来描述,通常情况下,马尔科夫需要知道 {S A P R γ},γ是衰减因子,那为什么还需要蒙特卡罗呢? 首先什么是蒙特卡罗? 蒙特卡罗实际上是一座赌城的名字,蒙特卡罗方法是冯 诺依曼 用这座赌城的名字起的。 蒙特卡罗方法的主要思想是:当求解的问题是某随机事件出现
阅读全文
posted @ 2019-02-17 15:43 努力的孔子
阅读(370)
评论(0)
推荐(1)
编辑
上一页
1
···
37
38
39
40
41
导航
博客园
首页
新随笔
新文章
联系
订阅
管理
统计
随笔: 406
文章: 0
评论: 30
阅读:
84万
搜索
随笔分类
001-大语言模型LLM(4)
002-attention and transformer(1)
AI机器学习(54)
AI机器学习框架-Sklearn(13)
AI机器学习之信号处理(5)
AI机器学习之异常检测(3)
AI空间数据处理(2)
AI强化学习(7)
AI深度学习(66)
AI深度学习框架-PyTorch(13)
AI深度学习框架-TensorFlow(41)
AI数学与算法(4)
AI图像处理(37)
AI自然语言处理(5)
AI最优化算法(12)
BD大数据-Hadoop(6)
BD大数据-Hive(10)
BD大数据-Kafka(6)
BD大数据-Spark(29)
BD大数据生态(4)
C++编程(2)
Linux(14)
Python 诡异_异常记录(1)
Python 基础(24)
Python 数据分析模块(20)
Python3 编程(2)
PythonWeb(7)
Python高级编程(9)
Python面向对象(3)
Shell 编程(1)
计算机网络(1)
爬虫(15)
数据库(13)
刷题(2)
网络编程(1)
学习资源-各种工具(1)
更多
点击右上角即可分享