随笔分类 - Natural Language Processing

reward model learning papers

摘要：1. Fine-Tuning Language Models from Human Preferences reward model：774M参数量的GPT-2，先进行了有监督训练训练loss: 其中r(x,y)代表reward model，x代表输入或者prompt，y代表输出或者reponse 阅读全文

posted @ 2023-03-10 14:51 Shiyu_Huang 阅读(473) 评论(0) 推荐(0)

word2vec

摘要：word2vec主要是把单词表示为向量。当我们处理文本的时候，为了让计算机能够阅读和计算，肯定需要把文字转成数字（向量）。比较naive的方法是直接给按字母顺序标号，也能得到向量。但是这些向量只能表示字母顺序的关系。但是一个单词含有很多含义，存在近义词，反义词等等的关系（其实近义和反义就是对该单词含阅读全文

posted @ 2016-12-12 14:09 Shiyu_Huang 阅读(433) 评论(0) 推荐(0)

黄世宇@小鹏汽车，OpenRL Lab负责人，强化学习，LLM，VLM, GUI Agent, Omni[OpenRL][知乎][GitHub][Linkedin]如果你对人工智能前沿感兴趣，欢迎联系并加入我们！

随笔分类 - Natural Language Processing

黄世宇@小鹏汽车，OpenRL Lab负责人，强化学习，LLM，VLM, GUI Agent, Omni
[OpenRL][知乎][GitHub][Linkedin]
如果你对人工智能前沿感兴趣，欢迎联系并加入我们！