2023 年 12月 25 日随笔档案 - xd_xumaomao

2023年12月25日

GPT-2 《Language Models are Unsupervised Multitask Learners》解读

摘要：背景 GPT1采用了pre-train + fine-tuning训练方式，也就是说为了适应不同的训练任务，模型还是需要在特定任务的数据集上微调，仍然存在较多人工干预的成本。GPT-2 想彻底解决这个问题，通过 zero-shot，在迁移到其他任务上的时候不需要额外的标注数据，也不需要额外的模型训练阅读全文

posted @ 2023-12-25 22:01 xd_xumaomao 阅读(75) 评论(0) 推荐(0) 编辑

GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读

摘要：背景 GPT-1 采用了两阶段训练的方式： 1. 第一阶段 pre-training，在海量文本上训练，无需label，根据前k-1个词预测第k个单词是什么，第一阶段的训练让模型拥有了很多的先验知识，模型具有非常强的泛化性 2. 第二阶段在特定任务上fine-tuning，让模型能适应不同的任务，提阅读全文

posted @ 2023-12-25 20:53 xd_xumaomao 阅读(92) 评论(0) 推荐(0) 编辑

BERT模型

摘要： BERT模型介绍 BERT模型的全称是：BidirectionalEncoder Representations from Transformer。从名字中可以看出，BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本阅读全文

posted @ 2023-12-25 17:40 xd_xumaomao 阅读(67) 评论(0) 推荐(0) 编辑

xd_xumaomao

公告