摘要: 之前看MADDPG论文的时候,作者提到在离散的信息交流环境中,使用了Gumbel-Softmax estimator。于是去搜了一下,发现该技巧应用甚广,如深度学习中的各种GAN、强化学习中的A2C和MADDPG算法等等。只要涉及在离散分布上运用重参数技巧时(re-parameterization) 阅读全文
posted @ 2018-08-13 17:03 initial_h 阅读(63300) 评论(20) 推荐(19) 编辑