摘要: __call__ 参考:https://www.cnblogs.com/superxuezhazha/p/5793536.html在Python中,函数其实是一个对象: >>> f = abs>>> f.__name__'abs'>>> f(-123)由于 f 可以被调用,所以,f 被称为可调用对象 阅读全文
posted @ 2019-07-09 19:47 LIN_KID 阅读(5755) 评论(0) 推荐(0) 编辑
摘要: 1\内容 2、tf_util 阅读全文
posted @ 2019-07-09 18:37 LIN_KID 阅读(649) 评论(0) 推荐(0) 编辑
摘要: 1、Actor-Critic\TRPO\PPO算法都属于on-policy(类似重要性采样,old_pi还是自己的策略),DDPG是off-policy 2、on-policy数据用完就丢掉了,off-policy会用到经验回放(很大的存储上限,有收集样本和采集样本两个过程,采用均匀采样) 3、on 阅读全文
posted @ 2019-07-09 15:59 LIN_KID 阅读(146) 评论(0) 推荐(0) 编辑