摘要:
BERT: 老大哥模型,模型的两个目标MLM和NSP,采用静态Masking(模型预训练之前已经确定了Masking的位置) ALBERT: bert模型的精简版本,参数更少,训练更快,主要有以下改动: 矩阵分解。词向量V到encoder全连接M进行分解,bert中参数量:V*M,ALBERT:V* 阅读全文
摘要:
DSE、DL、TL能够更好的对复杂样本分类,不会费力将样本的预测拉向0和1 详情看 https://mp.weixin.qq.com/s/6QJw6qGa5nmNOyjejYSRTw 阅读全文