动手强化学习-1-强化学习简介
先放上课程上有同学分享的思维导图:
划重点(用数学能更精确地描述强化学习的概念和过程):
强化学习:\(O_t, A_t, R_{t+1}, O_{t+1} \rightarrow Max \sum R\)
交互过程:
Agent: \(O_t \mid R_t \rightarrow A_t\)
Environment: \(A_t \rightarrow O_{t+1}, R_{t+1}\), t+=1
课件:https://boyuai.oss-cn-shanghai.aliyuncs.com/disk/动手学系列/动手学强化学习/课件pdf/1-强化学习简介.pdf
请把课件结合笔记来复习。
问题:
价值函数是用于评估给定策略下_状态__的好坏。