2021 年 2月 5 日随笔档案 - _Aming

摘要：机器学习方法：有监督学习，无监督学习，强化学习有监督学习：有标签有目标无监督学习：无标签，无目标强化学习：过程模拟和观察进行学习。强化学习策略：在特定状态下应该怎么采取行动。目标：找到最佳策略，即能够获得最大奖励的策略。数学模型：马尔可夫决策过程（MDP）强化学习方法形式化为MDP，阅读全文

posted @ 2021-02-05 18:37 _Aming 阅读(36) 评论(0) 推荐(0) 编辑

_Aming