摘要: BERT模型是什么 BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre train方法上,即用了Masked 阅读全文
posted @ 2019-07-15 21:11 虾野百鹤 阅读(2485) 评论(0) 推荐(1) 编辑