12 2021 档案

摘要:中文字、词Bert向量生成利用Bert预训练模型生成中文的字、词向量,字向量是直接截取Bert的输出结果;词向量则是把词语中的每个字向量进行累计求平均(毕竟原生Bert是基于字符训练的),Bert预训练模型采用的是科大讯飞的chinese_wwm_ext_pytorch,网盘下载地址: 链接:htt 阅读全文
posted @ 2021-12-28 09:51 jasonzhangxianrong 阅读(934) 评论(0) 推荐(0) 编辑
摘要:Focal Loss for Dense Object Detection 是ICCV2017的Best student paper,文章思路很简单但非常具有开拓性意义,效果也非常令人称赞。 GHM(gradient harmonizing mechanism) 发表于 “Gradient Harm 阅读全文
posted @ 2021-12-15 10:25 jasonzhangxianrong 阅读(953) 评论(0) 推荐(0) 编辑
摘要:1.为什么需要好的权重初始化 网络训练的过程中, 容易出现梯度消失(梯度特别的接近0)和梯度爆炸(梯度特别的大)的情况,导致大部分反向传播得到的梯度不起作用或者起反作用. 研究人员希望能够有一种好的权重初始化方法: 让网络前向传播或者反向传播的时候, 卷积的输出和前传的梯度比较稳定. 合理的方差既保 阅读全文
posted @ 2021-12-15 10:18 jasonzhangxianrong 阅读(517) 评论(0) 推荐(0) 编辑