《白话强化学习与Pytorch》

第1章 强化学习是什么

监督学习的套路——书P11
主要概念和术语——书P12
超参数是无法通过训练自动学会的参数——书P14
阅读至书P25
——2024.4.28
agent——主体部分
environment——环境


第2章 强化学习的脉络

  1. 马尔科夫决策过程(Markov Decision Process,MDP)——书P29
    更久之前发生的事情不在研究范围之内,只关注前面发生的事件,只针对前面发生的事件和现在发生的事件的关系来做研究
  2. Model-Based和Model-Free
    model是指 在一个环境中各个状态之间转换的概率分布描述
    ——2024.5.3

posted @ 2024-04-29 02:02  江左子固  阅读(54)  评论(0编辑  收藏  举报