动手强化学习-1-强化学习简介

先放上课程上有同学分享的思维导图：

划重点（用数学能更精确地描述强化学习的概念和过程）：
强化学习：\(O_t, A_t, R_{t+1}, O_{t+1} \rightarrow Max \sum R\)
交互过程：
Agent: \(O_t \mid R_t \rightarrow A_t\)
Environment: \(A_t \rightarrow O_{t+1}, R_{t+1}\), t+=1

课件：https://boyuai.oss-cn-shanghai.aliyuncs.com/disk/动手学系列/动手学强化学习/课件pdf/1-强化学习简介.pdf

请把课件结合笔记来复习。

问题：

价值函数是用于评估给定策略下_状态__的好坏。

posted @ 2023-07-25 15:05 鸽鸽的书房阅读(395) 评论(0) 收藏举报

刷新页面返回顶部

鸽鸽的书房

端庄厚重，谦卑含容；戒骄戒惰，但求有恒。

动手强化学习-1-强化学习简介

公告