摘要: 简述 按个人偏好和目标总结了学习目标和路径(可按需学习),后续将陆续整理出相应学习资料和资源。 🎯学习目标 熟悉主流LLM(Llama, ChatGLM, Qwen)的技术架构和技术细节;有实际应用RAG、PEFT和SFT的项目经验 较强的NLP基础,熟悉BERT、T5、Transformer和G 阅读全文
posted @ 2023-11-21 00:32 LeonYi 阅读(4576) 评论(0) 推荐(3) 编辑
摘要: 一、前言 本文主要是在复现和实践Phi2-mini-Chinese后,简要分析下Phi2-mini-Chinese这个项目,做一个学习实战总结。 原文发布于知乎:https://zhuanlan.zhihu.com/p/718307193,转载请注明出数。 Phi2-mini-Chinese简介 P 阅读全文
posted @ 2024-09-09 23:52 LeonYi 阅读(629) 评论(0) 推荐(1) 编辑
摘要: 【LLM训练系列】NanoGPT源码详解和中文GPT训练实践 本文是【训练LLM系列】的第一篇,主要重点介绍NanoGPT代码以及中文、英文预训练实践。最新版参见我的知乎:https://zhuanlan.zhihu.com/p/716442447 除跑通原始NanoGPT代码之外,分别使用了《红楼梦》、四大名著和几十本热门网络小说,进行了字符级、自行训练to 阅读全文
posted @ 2024-08-25 23:28 LeonYi 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 大模型高效微调-LoRA原理详解和训练过程深入分析 博客首发于我的知乎,详见:https://zhuanlan.zhihu.com/p/702629428 一、LoRA原理 LoRA(Low-Rank Adaptation of LLMs),即LLMs的低秩适应,是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所 阅读全文
posted @ 2024-06-11 21:50 LeonYi 阅读(9878) 评论(0) 推荐(4) 编辑
摘要: 大模型高效微调详解-从Adpter、PrefixTuning到LoRA 最新版本,详见我的知乎文章:https://zhuanlan.zhihu.com/p/696057719 一、背景 目前NLP主流范式是在大量通用数据上进行预训练语言模型训练,然后再针对特定下游任务进行微调,达到领域适应(迁移学习)的目的。 指令微调是预训练语言模型微调的主流范式 其目的是尽量让下游 阅读全文
posted @ 2024-05-06 23:40 LeonYi 阅读(3291) 评论(0) 推荐(1) 编辑
摘要: 本文将在DialogSum数据集上使用2张T4卡对2.7B的microsoft/phi2进行LORA微调。 博客翻译自Kaggle项目 fine-tuning-llm-for-dialogue-summarization https://www.kaggle.com/code/aisuko/fine 阅读全文
posted @ 2024-03-13 22:32 LeonYi 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 鉴于算力限制,选用了较小的英文数据集wikitext-2 目的:跑通Mask语言模型的预训练流程 一、准备 1.1 安装依赖 !pip3 install --upgrade pip !pip instal 阅读全文
posted @ 2024-03-13 22:25 LeonYi 阅读(671) 评论(0) 推荐(0) 编辑
摘要: 基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 本教程提供:英文数据集wikitext-2和代码数据集的预训练。 注:可以自行上传数据集进行训练 目的:跑通自回归语言模型的预训练流程 一、准备 1.1 安装依赖 !pip install -U data 阅读全文
posted @ 2024-03-13 22:21 LeonYi 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 一、背景 机器学习的本质是对物理世界进行建模,做的就是拟合数据分布。 但是在模型训练过程中,神经网络参数不断更新,导数中间层的数据分布频繁地变化(内部协变量偏移),不利于网络参数优化。具体表现为: 每层的参数需不断适应新的输入数据分布,降低学习速度,增大学习的难度(层数多) 输入可能趋向于变大或者变 阅读全文
posted @ 2024-01-27 22:31 LeonYi 阅读(555) 评论(0) 推荐(1) 编辑
摘要: 写在前面 本文主要是对博客 https://jaykmody.com/blog/gpt-from-scratch/ 的精简整理,并加入了自己的理解。 中文翻译:https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/#circle=on 项目 阅读全文
posted @ 2023-12-26 00:49 LeonYi 阅读(2108) 评论(2) 推荐(3) 编辑