摘要: 1、上下文管理器(结合 yield使用) 那么在with下的一段代码会自动生成上下文 2、策略迭代由策略评估和策略提升两部分组成,每一次迭代都会经过这两部分,策略评估的损失函数是当前的价值和之前算的价值的平方差,策略提升通过选择价值中高得那一个动作作为下一轮策略迭代的策略。 策略评估中就会把值函数收 阅读全文
posted @ 2019-09-14 20:52 LIN_KID 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 1、梯度下降选择固定步长可能产生的情况:收敛、发散、重复的在两个数之间跳跃 2、np.zeros_like(x) 生成一个shape和x一样的全为0的数组 3、plt.counter画等高线图 4、tensorflow的scope 变量命名空间 (1)若tf.Variable(初始值,name=' 阅读全文
posted @ 2019-09-14 13:50 LIN_KID 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 1| reward. shaping 如果对vs有大致的认知,把势能potential-based定义为估计的最优价值函数,能加快价值函数收敛 2、gae:广义优势估计 absorb state:terminal state γ-just条件:尚未理解 GAE(Generalized Advanta 阅读全文
posted @ 2019-09-14 13:49 LIN_KID 阅读(1042) 评论(0) 推荐(0) 编辑