摘要: 第一部分介绍了GPT模型的基本结构,下面对于GPT的基本工作流程进行介绍: 基本机制 GPT-2 可以处理最长 1024 个单词的序列。每个单词都会和它的前续路径一起经过所有的解码器模块。 运行一个训练好的 GPT-2 模型,最简单的方法就是让它自己随机工作(生成无条件样本)。我们也可以给它一些限制 阅读全文
posted @ 2020-08-25 11:22 btc 阅读(429) 评论(0) 推荐(0) 编辑