摘要:
残差网络为什么叫残差? 由以下公式决定: R(x) = Output - Input = H(x) - x 倒数H'(x) = R'(x) + 1,这样梯度就不会因为链式法则而逐渐消失了。 Residual Network和LSTM的关系? LSTM也可以部分解决梯度消失的问题。 阅读全文
摘要:
原文章。 https://www.sigarch.org/the-future-of-sparsity-in-deep-neural-networks/ 从三方面分析 1. Sparse Algorithms 第一层面是算法。 算法可以直接减少需要的workload。 2. Sparse Kerne 阅读全文
摘要:
因为根据链式法则,最靠近input的参数更新值为后面每一层梯度相乘,这样参数0~1的累乘会造成梯度消失,接近于0。 梯度爆炸一般是不稳定的模型或者计算造成,如某一层梯度过大。 阅读全文