12 2023 档案

摘要:背景 GPT-3 虽然在各大 NLP 任务以及文本生成的能力上令人惊艳,但是他仍然还是会生成一些带有偏见的,不真实的,有害的造成负面社会影响的信息,而且很多时候,他并不按人类喜欢的表达方式去说话。在这个背景下,OpenAI 提出了一个概念“Alignment”,意思是模型输出与人类真实意图对齐,符合 阅读全文
posted @ 2023-12-27 20:48 xd_xumaomao 阅读(110) 评论(0) 推荐(0) 编辑
摘要:GPT-3 和 GPT-2差别 1. 效果上,超出 GPT-2 非常多,能生成人类难以区分的新闻文章;2. 主推 few-shot,相比于 GPT-2 的 zero-shot,具有很强的创新性;3. 模型结构略微变化,采用 sparse attention 模块;4. 海量训练语料 45TB(清洗后 阅读全文
posted @ 2023-12-26 16:28 xd_xumaomao 阅读(202) 评论(0) 推荐(0) 编辑
摘要:背景 GPT1采用了pre-train + fine-tuning训练方式,也就是说为了适应不同的训练任务,模型还是需要在特定任务的数据集上微调,仍然存在较多人工干预的成本。GPT-2 想彻底解决这个问题,通过 zero-shot,在迁移到其他任务上的时候不需要额外的标注数据,也不需要额外的模型训练 阅读全文
posted @ 2023-12-25 22:01 xd_xumaomao 阅读(236) 评论(0) 推荐(0) 编辑
摘要:背景 GPT-1 采用了两阶段训练的方式: 1. 第一阶段 pre-training,在海量文本上训练,无需label,根据前k-1个词预测第k个单词是什么,第一阶段的训练让模型拥有了很多的先验知识,模型具有非常强的泛化性 2. 第二阶段在特定任务上fine-tuning,让模型能适应不同的任务,提 阅读全文
posted @ 2023-12-25 20:53 xd_xumaomao 阅读(219) 评论(0) 推荐(0) 编辑
摘要:BERT模型介绍 BERT模型的全称是:BidirectionalEncoder Representations from Transformer。从名字中可以看出,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本 阅读全文
posted @ 2023-12-25 17:40 xd_xumaomao 阅读(181) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示