摘要:
简述 按个人偏好和目标总结了学习目标和路径(可按需学习),后续将陆续整理出相应学习资料和资源。 🎯学习目标 熟悉主流LLM(Llama, ChatGLM, Qwen)的技术架构和技术细节;有实际应用RAG、PEFT和SFT的项目经验 较强的NLP基础,熟悉BERT、T5、Transformer和G 阅读全文
摘要:
一、前言 本文主要是在复现和实践Phi2-mini-Chinese后,简要分析下Phi2-mini-Chinese这个项目,做一个学习实战总结。 原文发布于知乎:https://zhuanlan.zhihu.com/p/718307193,转载请注明出数。 Phi2-mini-Chinese简介 P 阅读全文
摘要:
本文是【训练LLM系列】的第一篇,主要重点介绍NanoGPT代码以及中文、英文预训练实践。最新版参见我的知乎:https://zhuanlan.zhihu.com/p/716442447 除跑通原始NanoGPT代码之外,分别使用了《红楼梦》、四大名著和几十本热门网络小说,进行了字符级、自行训练to 阅读全文
摘要:
博客首发于我的知乎,详见:https://zhuanlan.zhihu.com/p/702629428 一、LoRA原理 LoRA(Low-Rank Adaptation of LLMs),即LLMs的低秩适应,是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所 阅读全文
摘要:
最新版本,详见我的知乎文章:https://zhuanlan.zhihu.com/p/696057719 一、背景 目前NLP主流范式是在大量通用数据上进行预训练语言模型训练,然后再针对特定下游任务进行微调,达到领域适应(迁移学习)的目的。 指令微调是预训练语言模型微调的主流范式 其目的是尽量让下游 阅读全文
摘要:
本文将在DialogSum数据集上使用2张T4卡对2.7B的microsoft/phi2进行LORA微调。 博客翻译自Kaggle项目 fine-tuning-llm-for-dialogue-summarization https://www.kaggle.com/code/aisuko/fine 阅读全文
摘要:
基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 鉴于算力限制,选用了较小的英文数据集wikitext-2 目的:跑通Mask语言模型的预训练流程 一、准备 1.1 安装依赖 !pip3 install --upgrade pip !pip instal 阅读全文
摘要:
基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 本教程提供:英文数据集wikitext-2和代码数据集的预训练。 注:可以自行上传数据集进行训练 目的:跑通自回归语言模型的预训练流程 一、准备 1.1 安装依赖 !pip install -U data 阅读全文
摘要:
一、背景 机器学习的本质是对物理世界进行建模,做的就是拟合数据分布。 但是在模型训练过程中,神经网络参数不断更新,导数中间层的数据分布频繁地变化(内部协变量偏移),不利于网络参数优化。具体表现为: 每层的参数需不断适应新的输入数据分布,降低学习速度,增大学习的难度(层数多) 输入可能趋向于变大或者变 阅读全文
摘要:
写在前面 本文主要是对博客 https://jaykmody.com/blog/gpt-from-scratch/ 的精简整理,并加入了自己的理解。 中文翻译:https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/#circle=on 项目 阅读全文