机器学习十讲第十讲

强化学习

知识回顾

机器学习方法

1624635441149

强化学习

1624635488033

马尔可夫决策

1624635543749

S是离散状态；A可能是离散，也可能是连续的；P通常用来描述模型
马尔可夫假设：状态不断转移，随着时间可以写成St→St+1→St+2，而在St+2这个时间段时若给定了St+1状态，那么它跟St及以前的状态是没有关系的。
在马尔可夫决策过程中，最终需要求解一个策略，它是行动和状态之间的映射，分为确定性策略和随机性策略

1624635658063

目标

1624635702670

强化学习的方法分类

1624635805753

状态价值函数

1624635858500

状态-行动价值函数

1624635889634

QLearning

1624635961545

引入参数学习

1624635989982

基于策略方法

1624636039106

小结

机器学习/数据科学的知识体系

数学方面：微积分，概率论，优化方法，统计学

计算机方面：python，数据结构与算法，数据库

数据方面：数据采集，数据管理，数据清洗，数据可视化，分布平台（Hadoop，Spark，Flink）

行业认识：对涉及的领域要有一定的理解，并将其他知识融入进去

学习建议

1624636130907

posted @ 2021-02-04 15:49 一粒盐阅读(33) 评论(0) 编辑收藏举报

刷新页面返回顶部