摘要: bert作为开创性的模型,可以用于大部分的场景,但也存在一些问题,不能用于生成,训练数据和测试数据的不一致(Discrepancy)。XLnet是比bert更强大的预训练模型,基于permutation实现了真正的双向学习,使用双流自注意力机制,结合transformers-XL的相对位置编码,效果 阅读全文
posted @ 2020-02-22 22:00 Christbao 阅读(407) 评论(0) 推荐(0) 编辑