强化学习简介

不理解环境(Model-Free RL)
- Q Learning
- Sarsa
- Policy Gradients
理解环境

基于概率

基于价值

posted @ 2019-08-28 19:15 FromZeroToOne 阅读(103) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部