2020 年 4月 14 日随笔档案 - 母翟龙

2020年4月14日

摘要： BERT：老大哥模型，模型的两个目标MLM和NSP，采用静态Masking（模型预训练之前已经确定了Masking的位置） ALBERT： bert模型的精简版本，参数更少，训练更快，主要有以下改动：矩阵分解。词向量V到encoder全连接M进行分解，bert中参数量：V*M，ALBERT：V* 阅读全文

posted @ 2020-04-14 11:02 母翟龙阅读(1274) 评论(0) 推荐(0) 编辑

损失函数

摘要： DSE、DL、TL能够更好的对复杂样本分类，不会费力将样本的预测拉向0和1 详情看 https://mp.weixin.qq.com/s/6QJw6qGa5nmNOyjejYSRTw 阅读全文

posted @ 2020-04-14 10:15 母翟龙阅读(109) 评论(0) 推荐(0) 编辑

母翟龙

【点赞、关注、评论】三连生活更美好

公告