随笔分类 - deep learning
recording the models of DL and the papers about DL
摘要:https://www.cnblogs.com/setdong/p/16508415.html 1. Rprop 在 full-batch optimization 中, 一些梯度可能很小, 而另一些梯度可能很大, 故难以寻找一个 global 学习率. 可以使用梯度的 sign 解决这个问题, 保
阅读全文
摘要:摘要 模型平均可以提高算法的性能,但是计算量大且麻烦,难以部署给用户。《模型压缩》这篇论文中表明,知识可以从复杂的大型模型或由多个模型构成的集成模型中压缩并转移到一个小型模型中,本文基于这一观点做出了进一步研究:通过**知识蒸馏(knowledge distillation)**显著提高了转移后的小
阅读全文
摘要:摘要 作者通过模型压缩(model compression)使浅层的网络学习与深层网络相同的函数,以达到深层网络的准确率(accuracy)。当与深浅模型的参数量相同时,浅层模型可以高保真地模仿具深层网络,这说明了深层网络学到的函数并不一定很深。 2 训练浅层网以模仿深层网络 2.1 Model C
阅读全文