摘要: https://zhuanlan.zhihu.com/p/79714797,其实原理只要搞懂了transformer,这里就很容易懂了。 1.基于decoder 它是一个自回归模型,也就是输出会转变为下一次的输入,主要用来文本生成。 输入编码:词嵌入和位置嵌入向量相加,然后进入masked self 阅读全文
posted @ 2020-06-20 23:50 lypbendlf 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 1.word2vec模型 https://zhuanlan.zhihu.com/p/27234078 讲的非常好! 这里说到了上面的这个结论,我的理解是,学习到的kitten和cat在空间中会更接近吗?难道只能通过和其他词的平行四边形才ok?? 嗯,后面说了,训练的嵌入向量也会非常地相似。 skip 阅读全文
posted @ 2020-06-20 22:37 lypbendlf 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 1.输入emb层 在modeling.py文件中,首先对token进行emb词向量查询 然后进行emb后处理,获取sentence emb/位置emb: sentence emb也就是segment emb,即不同句子的初始化嵌入向量: 下面是pos emb: https://blog.csdn.n 阅读全文
posted @ 2020-06-20 18:48 lypbendlf 阅读(522) 评论(0) 推荐(0) 编辑