强化学习相关知识的整理
从强化学习到深度强化学习再到强化学习的应用和展望
对于强化学习,之前有一种说法:深度学习是昨天,强化学习是今天,迁移学习是明天。虽说有些言过其实,但强化学习的思想,笔者看来还是最接近于人工智能的思想。
刚刚开始接触强化学习时,研究生刚刚入学,组里需要做关于自动驾驶决策相关方面的研究,导师就把这任务给了我。
emm...
现在想想,让一个当时机器学习是什么都不了解的小白,接触强化学习简直就是个笑话。
哈哈,言归正传,已经有半年没有接触过强化学习,之前在忙论文的事情,一直相对强化学习相关的知识进行总结,奈何没有时间,趁着年关将近,就将之前知识码出来,以后用不用的上也说不准。
目录
- 从强化学习到深度强化学习再到强化学习的应用和展望
- 强化学习解决的是什么样的问题?
- 举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?
- 强化学习的损失函数(loss function)是什么?
- 写贝尔曼方程(Bellman Equation)
- 最优值函数和最优策略为什么等价?
- 求解马尔科夫决策过程都有哪些方法?
- 简述蒙特卡罗估计值函数的算法。
- 简述时间差分算法
- 介绍Q-Learning
- DQN 算法
- 介绍OpenAI用的PPO算法
- 介绍TRPO算法
- 为什么TRPO能保证新策略的回报函数单调不减?
- 介绍DDPG算法
- 画出DDPG框架
- DDPG中的第二个D 为什么要确定?
- 介绍A3C算法
- A3C中优势函数意义
- 强化学习如何用在推荐系统中?
- 介绍Sarsa算法
- Sarsa 和 Q-Learning区别
- 强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?
- value-based方法学习的目标是什么?
- 强化学习 DQN,DDQN,AC,DDPG 的区别
- 参考资料
强化学习解决的是什么样的问题?
举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?
强化学习的损失函数(loss function)是什么?
写贝尔曼方程(Bellman Equation)
参考资料
最优值函数和最优策略为什么等价?
求解马尔科夫决策过程都有哪些方法?
简述蒙特卡罗估计值函数的算法。
简述时间差分算法
介绍Q-Learning
参考资料
DQN 算法
基本原理
参考资料
DQN的两个关键trick分别是什么?
DQN 都有哪些变种?DQN有哪些改进方向?
引入状态奖励的是哪种DQN?
-
Double -DQN
-
优先经验回放
-
Dueling-DQN
Dueling DQN和DQN有什么区别?
介绍OpenAI用的PPO算法
介绍TRPO算法
为什么TRPO能保证新策略的回报函数单调不减?
介绍DDPG算法
画出DDPG框架
DDPG中的第二个D 为什么要确定?
介绍A3C算法
参考资料
A3C中优势函数意义
强化学习如何用在推荐系统中?
参考资料
介绍Sarsa算法
参考资料
Sarsa 和 Q-Learning区别
参考资料
强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?
value-based方法学习的目标是什么?
强化学习 DQN,DDQN,AC,DDPG 的区别
参考资料
- 再励学习面试真题
- [强化学习面经](