摘要: 背景 GPT1采用了pre-train + fine-tuning训练方式,也就是说为了适应不同的训练任务,模型还是需要在特定任务的数据集上微调,仍然存在较多人工干预的成本。GPT-2 想彻底解决这个问题,通过 zero-shot,在迁移到其他任务上的时候不需要额外的标注数据,也不需要额外的模型训练 阅读全文
posted @ 2023-12-25 22:01 xd_xumaomao 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 背景 GPT-1 采用了两阶段训练的方式: 1. 第一阶段 pre-training,在海量文本上训练,无需label,根据前k-1个词预测第k个单词是什么,第一阶段的训练让模型拥有了很多的先验知识,模型具有非常强的泛化性 2. 第二阶段在特定任务上fine-tuning,让模型能适应不同的任务,提 阅读全文
posted @ 2023-12-25 20:53 xd_xumaomao 阅读(92) 评论(0) 推荐(0) 编辑
摘要: BERT模型介绍 BERT模型的全称是:BidirectionalEncoder Representations from Transformer。从名字中可以看出,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本 阅读全文
posted @ 2023-12-25 17:40 xd_xumaomao 阅读(67) 评论(0) 推荐(0) 编辑