动手强化学习-1-强化学习简介

先放上课程上有同学分享的思维导图:

划重点(用数学能更精确地描述强化学习的概念和过程):
强化学习:\(O_t, A_t, R_{t+1}, O_{t+1} \rightarrow Max \sum R\)
交互过程:
Agent: \(O_t \mid R_t \rightarrow A_t\)
Environment: \(A_t \rightarrow O_{t+1}, R_{t+1}\), t+=1

课件:https://boyuai.oss-cn-shanghai.aliyuncs.com/disk/动手学系列/动手学强化学习/课件pdf/1-强化学习简介.pdf

请把课件结合笔记来复习。

问题:

价值函数是用于评估给定策略下_状态__的好坏。

posted @ 2023-07-25 15:05  鸽鸽的书房  阅读(219)  评论(0编辑  收藏  举报