摘要:
原因: 损失函数在顶层,顶层训练的比较快 数据在底层,数据发生变化,所有都变化,最后那些层需要学习多次,收敛变慢 在改变底部数据时,避免顶部重新训练 作为可学习的b与r, 作用在: 全连接和卷积层的输出上,激活函数前。(bn是线性变化,激活函数增加非线性) 在输入上 全连接,作用在特征维度。 ● 其 阅读全文
摘要:
python的跨文件调用可能会找不到调用的文件或者调用其他重名的文件,需要在调用文件开头加入路径信息,如下所示: import sys,os curPath = os.path.abspath(os.path.dirname(__file__)) rootPath = os.path.split(c 阅读全文
摘要:
找到论文的代码实现 Papers With Code:自动把论文连接到实现代码的 GitHub 资源库和数据集,并根据 GitHub 的收藏量排序。每篇论文可能有多个合并的条目. Github pwc:以相当简洁的列表关联论文和代码实现,包含最新的 NIPS 论文. GitXiv:每个项目可以方便地 阅读全文
摘要:
激活函数一览:https://www.cnblogs.com/think90/p/11883739.html 阅读全文
摘要:
参考链接:https://blog.csdn.net/scut_salmon/article/details/82414730 optimizer.zero_grad()意思是把梯度置零,也就是把loss关于weight的导数变成0. 在学习pytorch的时候注意到,对于每个batch大都执行了这 阅读全文
摘要:
参考链接:https://www.cnblogs.com/bymo/p/7571320.html 1.分割 -- split命令 可以指定按行数分割和按字节大小分割两种模式。 (1) 按行数分割 $ split -l 300 large_file.txt new_file_prefix 加上-d,使 阅读全文
摘要:
参考链接: https://zhuanlan.zhihu.com/p/357328156 http://litowang.top/2018/07/29/factorization-machine/#more https://www.cnblogs.com/zhangchaoyang/articles 阅读全文
摘要:
预训练加微调 梯度剪切、权重正则(针对梯度爆炸) 使用不同的激活函数 使用batchnorm 使用残差结构 使用LSTM网络 一、为什么会产生梯度消失和梯度爆炸? 目前优化神经网络的方法都是基于BP,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。其中将误差从末层往前传递 阅读全文
摘要:
1.定义 标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h'小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell 2.出现过拟合的一些原因 (1)建 阅读全文
摘要:
参考链接:https://www.pianshen.com/article/27951008925/https://www.pianshen.com/article/27951008925/ 阅读全文