摘要: Generative Pre-trained Transformer (GPT) 总的来说,GPT1,2,3都是 单向transformer decoder结构,训练语言模型,最主要的是训练数据量和模型大小的区别,越来越多,越来越大 GPT1 GPT2 GPT3 paper Improving La 阅读全文
posted @ 2021-05-23 17:00 AliceYing 阅读(2517) 评论(0) 推荐(1) 编辑