摘要: 机器学习方法:有监督学习,无监督学习,强化学习 有监督学习:有标签有目标 无监督学习:无标签,无目标 强化学习:过程模拟和观察进行学习。 强化学习 策略:在特定状态下应该怎么采取行动。 目标:找到最佳策略,即能够获得最大奖励的策略。 数学模型:马尔可夫决策过程(MDP) 强化学习方法形式化为MDP, 阅读全文
posted @ 2021-02-05 18:37 _Aming 阅读(36) 评论(0) 推荐(0) 编辑