随笔分类 - 强化学习

发表于 2021-03-07 20:40阅读：6827评论：2推荐：0

摘要：前言实例参考MorvanZhou/Reinforcement-learning-with-tensorflow, 更改为PyTorch实现，并增加了几处优化。实现效果如下。其中,红色方块作为探索的智能体,到达黄色圆形块reward=1,到达黑色方块区域reward=-1. 代码程序主循环 fr 阅读全文 »

posted @ 2021-03-07 20:40 -Rocky- 阅读(6827) 评论(2) 推荐(0) 编辑

强化学习算法实例Q-Learning代码(一维场景探索目标)

发表于 2021-03-07 20:33阅读：900评论：0推荐：0

摘要：前言 1 Q-Learning算法实现首先,需要知道Q表和其更新公式 Q表,定义了状态(state)和行为(action) Q表更新，Q(s1,a2)=Q(s1,a2)+lrdiff,diff(差距)=现实-估计=R+rmaxQ(s2)-Q(s1,a2) 然后，算法工作流程是：按照Q表或随机选择阅读全文 »

posted @ 2021-03-07 20:33 -Rocky- 阅读(900) 评论(0) 推荐(0) 编辑

强化学习基础

发表于 2021-03-07 19:52阅读：138评论：0推荐：0

摘要：强化学习简介强化学习类似试错法，让计算机从错误中学习最后找到规律。例子，Alpha Go 监督学习对具有标签的数据进行学习，强化学习对没有标签的数据进行学习，但在环境的一次次尝试中获取这些标签学习到规律。强化学习分类：1）通过价值选则行为：Q Learning,Sarsa,Deep Q Net 阅读全文 »

posted @ 2021-03-07 19:52 -Rocky- 阅读(138) 评论(0) 推荐(0) 编辑

强化学习-路线

发表于 2020-12-07 16:23阅读：116评论：0推荐：0

摘要：视频强化学习入门-视频 BiliBili-同步代码教程书籍书籍-强化学习代码论文强化学习关键论文开源库参考强化学习资料阅读全文 »

posted @ 2020-12-07 16:23 -Rocky- 阅读(116) 评论(0) 推荐(0) 编辑

公告

Rocky

此时相望不相闻，愿逐月华流照君。

《春江花月夜》 - 唐代 - 张若虚

关注

跳至底部

昵称： -Rocky-
园龄： 7年9个月
粉丝： 13
关注： 1

+加关注

-Rocky-

随笔分类 - 强化学习

公告

Rocky

此时相望不相闻，愿逐月华流照君。

《春江花月夜》 - 唐代 - 张若虚

搜索

常用链接

我的标签

随笔分类 (105)

随笔档案 (111)

阅读排行榜

评论排行榜

推荐排行榜

最新评论