2019 年 9月 14 日随笔档案 - LIN_KID

2019年9月14日

摘要： 1、上下文管理器（结合 yield使用）那么在with下的一段代码会自动生成上下文 2、策略迭代由策略评估和策略提升两部分组成，每一次迭代都会经过这两部分，策略评估的损失函数是当前的价值和之前算的价值的平方差，策略提升通过选择价值中高得那一个动作作为下一轮策略迭代的策略。策略评估中就会把值函数收阅读全文

posted @ 2019-09-14 20:52 LIN_KID 阅读(239) 评论(0) 推荐(0) 编辑

强化学习第三四章

摘要： 1、梯度下降选择固定步长可能产生的情况：收敛、发散、重复的在两个数之间跳跃 2、np.zeros_like(x) 生成一个shape和x一样的全为0的数组 3、plt.counter画等高线图 4、tensorflow的scope 变量命名空间（1）若tf.Variable(初始值,name=' 阅读全文

posted @ 2019-09-14 13:50 LIN_KID 阅读(151) 评论(0) 推荐(0) 编辑

Gae&reward shaping

摘要： 1| reward. shaping 如果对vs有大致的认知，把势能potential-based定义为估计的最优价值函数，能加快价值函数收敛 2、gae：广义优势估计 absorb state:terminal state γ-just条件:尚未理解 GAE(Generalized Advanta 阅读全文

posted @ 2019-09-14 13:49 LIN_KID 阅读(1042) 评论(0) 推荐(0) 编辑

LIN_KID

公告