摘要:
——import matplotlib.pyplot as plt 官方手册 https://matplotlib.org/tutorials/introductory/pyplot.html ——import seaborn as sns 官方手册http://seaborn.pydata.org 阅读全文
摘要:
在过去,使用一个表格来存储V(s)或Q(s,a) 如果已知完整MDP,V(s),也就是有完整模型,也有状态转移概率矩阵,那DP求状态价值期望解贝尔曼最优方程就🆗了 如果MDP不完整,Q(s,a),没有状态转移概率矩阵,这是大多数情况,那么我们使用采样法来做policy-evaluation,有MC 阅读全文