《白话强化学习与Pytorch》

监督学习的套路——书P11
主要概念和术语——书P12
超参数是无法通过训练自动学会的参数——书P14
阅读至书P25
——2024.4.28
agent——主体部分
environment——环境

马尔科夫决策过程（Markov Decision Process，MDP）——书P29
更久之前发生的事情不在研究范围之内，只关注前面发生的事件，只针对前面发生的事件和现在发生的事件的关系来做研究
Model-Based和Model-Free
model是指 在一个环境中各个状态之间转换的概率分布描述
——2024.5.3

posted @ 2024-04-29 02:02 江左子固阅读(102) 评论(0) 收藏举报

刷新页面返回顶部

龙场悟道