随笔分类 - Transformers

reward model learning papers

摘要：1. Fine-Tuning Language Models from Human Preferences reward model：774M参数量的GPT-2，先进行了有监督训练训练loss: 其中r(x,y)代表reward model，x代表输入或者prompt，y代表输出或者reponse 阅读全文

posted @ 2023-03-10 14:51 Shiyu_Huang 阅读(473) 评论(0) 推荐(0)

各个语言模型大小，参数量等统计

摘要：模型名参数量模型大小(Pytorch) 训练数据 token长度网络结构训练硬件训练时长发布时间来源发布组织 GPT-2 small:124M medium:355M large:774M XL:1.5B small: 548MB medium:1.52GB large:3.25GB 阅读全文

posted @ 2023-03-06 15:00 Shiyu_Huang 阅读(5556) 评论(0) 推荐(0)

黄世宇@小鹏汽车，OpenRL Lab负责人，强化学习，LLM，VLM, GUI Agent, Omni[OpenRL][知乎][GitHub][Linkedin]如果你对人工智能前沿感兴趣，欢迎联系并加入我们！

随笔分类 - Transformers

黄世宇@小鹏汽车，OpenRL Lab负责人，强化学习，LLM，VLM, GUI Agent, Omni
[OpenRL][知乎][GitHub][Linkedin]
如果你对人工智能前沿感兴趣，欢迎联系并加入我们！