摘要: BERT: 老大哥模型,模型的两个目标MLM和NSP,采用静态Masking(模型预训练之前已经确定了Masking的位置) ALBERT: bert模型的精简版本,参数更少,训练更快,主要有以下改动: 矩阵分解。词向量V到encoder全连接M进行分解,bert中参数量:V*M,ALBERT:V* 阅读全文
posted @ 2020-04-14 11:02 母翟龙 阅读(1274) 评论(0) 推荐(0) 编辑
摘要: DSE、DL、TL能够更好的对复杂样本分类,不会费力将样本的预测拉向0和1 详情看 https://mp.weixin.qq.com/s/6QJw6qGa5nmNOyjejYSRTw 阅读全文
posted @ 2020-04-14 10:15 母翟龙 阅读(109) 评论(0) 推荐(0) 编辑