摘要: 残差网络为什么叫残差? 由以下公式决定: R(x) = Output - Input = H(x) - x 倒数H'(x) = R'(x) + 1,这样梯度就不会因为链式法则而逐渐消失了。 Residual Network和LSTM的关系? LSTM也可以部分解决梯度消失的问题。 阅读全文
posted @ 2021-08-18 17:45 xuyv 阅读(39) 评论(0) 推荐(0) 编辑
摘要: 原文章。 https://www.sigarch.org/the-future-of-sparsity-in-deep-neural-networks/ 从三方面分析 1. Sparse Algorithms 第一层面是算法。 算法可以直接减少需要的workload。 2. Sparse Kerne 阅读全文
posted @ 2021-08-18 11:44 xuyv 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 因为根据链式法则,最靠近input的参数更新值为后面每一层梯度相乘,这样参数0~1的累乘会造成梯度消失,接近于0。 梯度爆炸一般是不稳定的模型或者计算造成,如某一层梯度过大。 阅读全文
posted @ 2021-08-18 09:41 xuyv 阅读(26) 评论(0) 推荐(0) 编辑