机器学习十讲第十讲
强化学习
知识回顾
- 机器学习方法
强化学习
马尔可夫决策
- S是离散状态;A可能是离散,也可能是连续的;P通常用来描述模型
- 马尔可夫假设:状态不断转移,随着时间可以写成St→St+1→St+2,而在St+2这个时间段时若给定了St+1状态,那么它跟St及以前的状态是没有关系的。
- 在马尔可夫决策过程中,最终需要求解一个策略,它是行动和状态之间的映射,分为确定性策略和随机性策略
- 目标
强化学习的方法分类
- 状态价值函数
- 状态-行动价值函数
QLearning
- 引入参数学习
- 基于策略方法
小结
- 机器学习/数据科学的知识体系
数学方面:微积分,概率论,优化方法,统计学
计算机方面:python,数据结构与算法,数据库
数据方面:数据采集,数据管理,数据清洗,数据可视化,分布平台(Hadoop,Spark,Flink)
行业认识:对涉及的领域要有一定的理解,并将其他知识融入进去
- 学习建议