《白话强化学习与Pytorch》
第1章 强化学习是什么
监督学习的套路——书P11
主要概念和术语——书P12
超参数是无法通过训练自动学会的参数——书P14
阅读至书P25
——2024.4.28
agent——主体部分
environment——环境
第2章 强化学习的脉络
- 马尔科夫决策过程(Markov Decision Process,MDP)——书P29
更久之前发生的事情不在研究范围之内,只关注前面发生的事件,只针对前面发生的事件和现在发生的事件的关系来做研究 - Model-Based和Model-Free
model是指 在一个环境中各个状态之间转换的概率分布描述
——2024.5.3