01 2024 档案

聊聊ChatGLM-6B源码分析(二)

摘要：基于ChatGLM-6B第一版，要注意还有ChatGLM2-6B以及ChatGLM3-6B 转载请备注出处：https://www.cnblogs.com/zhiyong-ITNote/ ChatGLMPreTrainedModel 官方的描述是处理权重初始化的抽象类，以及下载和加载预训练模型的接阅读全文

posted @ 2024-01-12 10:50 又见阿郎阅读(767) 评论(0) 推荐(0) 编辑

聊聊ChatGLM中P-tuning v2的应用

摘要：论文PDF地址：https://arxiv.org/pdf/2110.07602.pdf 转载请备注出处：https://www.cnblogs.com/zhiyong-ITNote/ P-Tuning v2 摘录自第三部分桔色块指代可训练的prompt embedding；蓝色块是由固定(冻结) 阅读全文

posted @ 2024-01-11 11:24 又见阿郎阅读(595) 评论(0) 推荐(0) 编辑

聊聊ChatGLM-6B的源码分析

摘要：基于ChatGLM-6B第一版，要注意还有ChatGLM2-6B以及ChatGLM3-6B 转载请备注出处：https://www.cnblogs.com/zhiyong-ITNote/ PrefixEncoder 作用：在微调时（以P-Tuning V2为例），方法训练时冻结模型的全部参数，只激活阅读全文

posted @ 2024-01-08 14:25 又见阿郎阅读(760) 评论(0) 推荐(0) 编辑

聊聊从源码来看ChatGLM-6B的模型结构

摘要：基于ChatGLM-6B第一版，要注意还有ChatGLM2-6B以及ChatGLM3-6B 概述 ChatGLM是transformer架构的神经网络模型，因此从transformer结构入手，分析其源码结构。 transformer结构：转载请备注出处：https://www.cnblogs.c 阅读全文

posted @ 2024-01-06 17:26 又见阿郎阅读(1565) 评论(0) 推荐(0) 编辑

聊聊ChatGLM6B的微调脚本及与Huggingface的关联

摘要：本文首先分析微调脚本trainer.sh的内容，再剖析ChatGLM是如何与Huggingface平台对接，实现transformers库的API直接调用ChatGLM模型，最后定位到了ChatGLM模型的源码文件。脚本分析微调脚本： PRE_SEQ_LEN=128 LR=2e-2 CUDA_V 阅读全文

posted @ 2024-01-03 14:57 又见阿郎阅读(627) 评论(0) 推荐(0) 编辑

聊聊ChatGLM-6B部署与微调的深入理解

摘要：ChatGLM的部署，主要是两个步骤：在Github上下载chatglm的库文件在Hugging Face上下载模型参数与配置文件 ChatGLM包从Github上看ChatGLM项目文件的结构来看，仅仅是包含三种部署方式的py代码与微调的py代码而相关的实现细节，比如神经网络、激活函数、损阅读全文

posted @ 2024-01-02 16:47 又见阿郎阅读(828) 评论(0) 推荐(1) 编辑

公告

昵称：又见阿郎
园龄： 8年8个月
粉丝： 63
关注： 63

+加关注

2025年2月

日

一

二

三

四

五

六

又见阿郎

01 2024 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论