g
y
7
7
7
7

01 2021 档案

摘要:gym环境:FrozenLake-v0:http://gym.openai.com/envs/FrozenLake-v0/ 代码来自:周博磊老师的GitHub:https://github.com/cuhkrlcourse/RLexample/tree/master/MDP 环境如下: SFFF ( 阅读全文
posted @ 2021-01-21 17:01 gy77 阅读(505) 评论(0) 推荐(0) 编辑
摘要:第一课:强化学习智能体的主要组成部分: Policy:引导智能体如何选取动作 Value function:来判断每个状态或者动作的好坏 Model:智能体在环境中的状态表示 Policy 一个决策就是智能体选取动作的模型 一个决策是一个映射函数,从状态、或者观测值到动作的映射 随机决策:随机概率 阅读全文
posted @ 2021-01-18 14:44 gy77 阅读(219) 评论(0) 推荐(0) 编辑