摘要: 一、GPT(Generative Pre-Training) GPT-2的模型非常巨大,它其实是Transformer的Decoder。GPT-2是Transformer的Decoder部分,输入一个句子中的上一个词,我们希望模型可以得到句子中的下一个词。 由于GPT-2的模型非常巨大,它在很多任务 阅读全文
posted @ 2019-11-17 20:31 nxf_rabbit75 阅读(503) 评论(0) 推荐(0) 编辑
摘要: word2vec作为神经概率语言模型的输入,其本身其实是神经概率模型的副产品,是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说,“某个语言模型”指的是“CBOW”和“Skip-gram”。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negati 阅读全文
posted @ 2019-11-17 11:50 nxf_rabbit75 阅读(463) 评论(0) 推荐(0) 编辑