随笔分类 -  强化学习

摘要:前言 实例参考MorvanZhou/Reinforcement-learning-with-tensorflow, 更改为PyTorch实现,并增加了几处优化。实现效果如下。 其中,红色方块作为探索的智能体,到达黄色圆形块reward=1,到达黑色方块区域reward=-1. 代码 程序主循环 fr 阅读全文 »
posted @ 2021-03-07 20:40 -Rocky- 阅读(6827) 评论(2) 推荐(0) 编辑
摘要:前言 1 Q-Learning算法实现 首先,需要知道Q表和其更新公式 Q表,定义了状态(state)和行为(action) Q表更新,Q(s1,a2)=Q(s1,a2)+lrdiff,diff(差距)=现实-估计=R+rmaxQ(s2)-Q(s1,a2) 然后,算法工作流程是: 按照Q表或随机选择 阅读全文 »
posted @ 2021-03-07 20:33 -Rocky- 阅读(900) 评论(0) 推荐(0) 编辑
摘要:强化学习简介 强化学习类似试错法,让计算机从错误中学习最后找到规律。例子,Alpha Go 监督学习对具有标签的数据进行学习,强化学习对没有标签的数据进行学习, 但在环境的一次次尝试中获取这些标签学习到规律。 强化学习分类:1)通过价值选则行为:Q Learning,Sarsa,Deep Q Net 阅读全文 »
posted @ 2021-03-07 19:52 -Rocky- 阅读(138) 评论(0) 推荐(0) 编辑
摘要:视频 强化学习入门-视频 BiliBili-同步 代码 教程 书籍 书籍-强化学习 代码 论文 强化学习关键论文 开源库 参考 强化学习资料 阅读全文 »
posted @ 2020-12-07 16:23 -Rocky- 阅读(116) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示