Loading

强化学习 马尔可夫过程&动态规划

1. 背景介绍

2. 动态特性

3. 价值函数

4. 贝尔曼期望方程

5. 贝尔曼最优方程

6. 策略评估-解析解

7. 策略评估-迭代解

8. 策略改进定理

9. 策略改进-贪心策略

10. 价值迭代

posted @ 2022-01-13 22:01  橘崽崽啊  阅读(95)  评论(0编辑  收藏  举报