2019 年 11月 17 日随笔档案 - nxf_rabbit75

2019年11月17日

摘要：一、GPT（Generative Pre-Training） GPT-2的模型非常巨大，它其实是Transformer的Decoder。GPT-2是Transformer的Decoder部分，输入一个句子中的上一个词，我们希望模型可以得到句子中的下一个词。由于GPT-2的模型非常巨大，它在很多任务阅读全文

posted @ 2019-11-17 20:31 nxf_rabbit75 阅读(503) 评论(0) 推荐(0) 编辑

词向量---Word2Vec

摘要： word2vec作为神经概率语言模型的输入，其本身其实是神经概率模型的副产品，是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说，“某个语言模型”指的是“CBOW”和“Skip-gram”。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negati 阅读全文

posted @ 2019-11-17 11:50 nxf_rabbit75 阅读(463) 评论(0) 推荐(0) 编辑