随笔分类 - Natural Language Processing
摘要:1. Fine-Tuning Language Models from Human Preferences reward model:774M参数量的GPT-2,先进行了有监督训练 训练loss: 其中r(x,y)代表reward model,x代表输入或者prompt,y代表输出或者reponse
阅读全文
摘要:word2vec主要是把单词表示为向量。当我们处理文本的时候,为了让计算机能够阅读和计算,肯定需要把文字转成数字(向量)。比较naive的方法是直接给按字母顺序标号,也能得到向量。但是这些向量只能表示字母顺序的关系。但是一个单词含有很多含义,存在近义词,反义词等等的关系(其实近义和反义就是对该单词含
阅读全文