2021 年 8月 18 日随笔档案 - xuyv

2021年8月18日

摘要：残差网络为什么叫残差？由以下公式决定： R(x) = Output - Input = H(x) - x 倒数H'(x) = R'(x) + 1，这样梯度就不会因为链式法则而逐渐消失了。 Residual Network和LSTM的关系？ LSTM也可以部分解决梯度消失的问题。阅读全文

posted @ 2021-08-18 17:45 xuyv 阅读(39) 评论(0) 推荐(0) 编辑

DNN中的Sparsity研究

摘要：原文章。 https://www.sigarch.org/the-future-of-sparsity-in-deep-neural-networks/ 从三方面分析 1. Sparse Algorithms 第一层面是算法。算法可以直接减少需要的workload。 2. Sparse Kerne 阅读全文

posted @ 2021-08-18 11:44 xuyv 阅读(96) 评论(0) 推荐(0) 编辑

梯度爆炸或者梯度消失

摘要：因为根据链式法则，最靠近input的参数更新值为后面每一层梯度相乘，这样参数0~1的累乘会造成梯度消失，接近于0。梯度爆炸一般是不稳定的模型或者计算造成，如某一层梯度过大。阅读全文

posted @ 2021-08-18 09:41 xuyv 阅读(26) 评论(0) 推荐(0) 编辑

公告