2023 年 4月 25 日随笔档案 - 微笑sun

2023年4月25日

摘要： ChatGLM 是基于 General Language Model (GLM) 架构，针对中文问答和对话进行了优化。经过中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术，ChatGLM因为是中文大模型，在中文任务的表现要优于LLaMa，我在一些实体抽取的任务中微调ChatGLM-6B，阅读全文

posted @ 2023-04-25 22:09 微笑sun 阅读(3950) 评论(0) 推荐(0) 编辑

大模型入门（四）—— 基于peft 微调 LLaMa模型

摘要： llama-7b模型大小大约27G，本文在单张/两张 16G V100上基于hugging face的peft库实现了llama-7b的微调。 1、模型和数据准备使用的大模型：https://huggingface.co/decapoda-research/llama-7b-hf，已经是float 阅读全文

posted @ 2023-04-25 15:49 微笑sun 阅读(7140) 评论(1) 推荐(1) 编辑

微笑sun

公告