摘要: 比如一个softmax向量y_soft为[0.8,0.2] 但最后要使用它的单热形式y_hard[1,0] 如果反向传播是对y_soft进行,那么y_soft可以进行如下处理后传给下一步: y=(y_hard-y_soft).detach()+y.soft() y和y_hard值一样,但是求导是对y 阅读全文
posted @ 2020-11-21 15:24 fjlruo 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 用于截断反向传播 detach()源码: def detach(self): result = NoGrad()(self) # this is needed, because it merges version counters result._grad_fn = None return resu 阅读全文
posted @ 2020-11-21 14:38 fjlruo 阅读(1118) 评论(0) 推荐(0) 编辑