01 2021 档案

周博磊老师强化学习纲领笔记第二课：MDP，Policy Iteration与Value Iteration

摘要：gym环境：FrozenLake-v0：http://gym.openai.com/envs/FrozenLake-v0/ 代码来自：周博磊老师的GitHub：https://github.com/cuhkrlcourse/RLexample/tree/master/MDP 环境如下： SFFF ( 阅读全文

posted @ 2021-01-21 17:01 gy77 阅读(673) 评论(0) 推荐(0)

周博磊老师强化学习纲领笔记第一课：强化学习基础

摘要：第一课：强化学习智能体的主要组成部分： Policy：引导智能体如何选取动作 Value function：来判断每个状态或者动作的好坏 Model：智能体在环境中的状态表示 Policy 一个决策就是智能体选取动作的模型一个决策是一个映射函数，从状态、或者观测值到动作的映射随机决策：随机概率阅读全文

posted @ 2021-01-18 14:44 gy77 阅读(265) 评论(0) 推荐(0)

一届书生

本博客所有内容以学习、研究和分享为主，如需转载，请标明作者和出处，并且是非商业用途，谢谢。

01 2021 档案

公告