摘要:
__call__ 参考:https://www.cnblogs.com/superxuezhazha/p/5793536.html在Python中,函数其实是一个对象: >>> f = abs>>> f.__name__'abs'>>> f(-123)由于 f 可以被调用,所以,f 被称为可调用对象 阅读全文
摘要:
1\内容 2、tf_util 阅读全文
摘要:
1、Actor-Critic\TRPO\PPO算法都属于on-policy(类似重要性采样,old_pi还是自己的策略),DDPG是off-policy 2、on-policy数据用完就丢掉了,off-policy会用到经验回放(很大的存储上限,有收集样本和采集样本两个过程,采用均匀采样) 3、on 阅读全文