LLM生态圈：transformer、HuggingFace、GPU、分布式、量化-加速-部署、Agent、多模态等原理、代码、应用

原理与案例篇

代码/技术细节与工具篇

压缩、量化、加速、部署/训练加速

应用篇

LLM

行业LLM微调 tricks

预训练数据和指令微调数据能混合一起微调模型吗

## 案例与产品

LLM微调案例汇总

行业LLM典型案例：MedicalGPT、EmoLLM心理

垂直大模型-收集

视觉大模型

Vision Transformer（ViT)

swin transformer

多模态大模型

CLIP-图文检索

LLaVA、LLaVA1.5、LLaVA Next

MOE

混合专家模型 MOE

MOE在视觉模型 Vision-MoE 中的应用

模型原理

## Attention

注意力机制【1】-入门篇

注意力机制【2】- CV中的注意力机制

注意力机制【3】-Self Attention

注意力机制【4】-多头注意力机制

注意力机制【5】Scaled Dot-Product Attention 和 mask attention

注意力机制【6】多种 attention 分析汇总

Cross-attention

多头注意力机制中head_mask的作用

注意力机制深度剖析 - 位置、适用任务分析，不合适的注意力反而效果变差

## transformer

## LLM

transformer-正弦位置编码

视觉位置编码

旋转位置编码 RoPE，支持长度扩展，外推性好

transformer 架构优化

past_key_value 的作用

从零开始基于transformers库搭建Llama

# ChatGLM

# LLAMA

Llama3-chinese lora+推理

Embedding

Embedding 模型一览选择及使用

embedding - bi encode AND cross encode

Embedding微调实战

embedding 之 sentence_transformers 原理、用法、微调

embedding 生成数据集，训练指标，基于 llama_index 微调

优质的 embedding 资源

BGE-智源 embedding 模型

Embedding工作原理 - 材料漂亮

HuggingFace

Huggingface镜像站hf-mirror.com下载资源

Hugging Face 文档库指南

加载所有大模型代码

https://hf-mirror.com/docs/transformers/index

llama 模型申请

### datasets

datasets

### Tokenizers

tokenizer - subword算法 BPE、WordPiece、ULM

tokenizer原理、用法、训练自己的 tokenizer

词表预留与加词

tokenizer 的还原

tokenizer 中 attention_mask 在处理多个序列时的作用

### transformers

transformers库-Models

transformers库-tokenizer分词器

Chat 数据模板-chat_template 构建LLM输入

transformers库-BERT中的Tokenizer

transformers-微调模型

transformers库-优化器

### Accelerate

Accelerate库加载和运行超大模型

transformers+accelerate设置分布式训练

### PEFT

PEFT库-基本用法与实战（llama2 量化并微调）

PEFT 加载 adapters

PEFT库-详细使用流程

### TRL

TRL ：一款利用强化学习训练Transformer模型的框架

### gradio

前端神器 - gradio 日常使用注意点

分布式训练

### DeepSpeed

分布式训练代码编写的基本逻辑

deepspeed 安装、基本用法、异常记录

deepspeed 参数传递与数据集生成

deepspeed 原理

deepspeed 多机多卡训练

deepspeed 集群训练LLM完整实战

### 其他

分布式训练基本概念

PyTorch 分布式训练

流水线并行

推理微调代码/底层逻辑

### 细节代码实现-深入理解LLM

pre-train

### 实战

LLM训练基本流程-从0到1复现斯坦福羊驼 Alpaca

全流程微调代码，以 Qwen2 为例（LoRA 参数高效微调和 SwanLab 可视化监控）

ChatGLM 微调细节1-构建数据集

LoRA 实战 - 利用 lora 微调 CNN

Prompt Learning 完成下游任务：基于bert的情感分类

推理微调工具/框架

大模型微调 - 工具型框架

### 魔搭swift

LLM推理微调框架 -魔搭ModelScope开源社区 swift

swift - 自我认知微调最佳实践（微调、推理、AWQ量化、vllm推理）

swift - Agent 微调与部署实战

swift-增量预训练

linux 异常记录 - swift分布式训练环境

### LLAMA Factory

LLM推理微调框架 LLama-Factory

LLaMA-Factory-微调实现function calling

LlamaFactory 实体识别及评估

llama factory - 微调任务类型/案例汇总

大模型训练所需算力估计

大模型相关知识（未整理）

### 部署工具

LLM 本地化部署工具 - Ollama

DataBase

neo4j 基础语法

向量数据库及 LangChain 用法

Milvus

训练优化

多轮对话微调(ChatGLM)

训练加速

混合精度训练

torch.cuda.amp.autocast 自动混合精度计算与混合精度训练

Flash Attention

推理加速

LLM推理评测与优化

模型量化

大模型量化及低成本部署

位->字节->数据类型-->模型参数

量化基本概念、原理、分类

NormalFloat 4-bit(NF4)量化

INT8 量化和 bitsandbytes 安装使用，PTQ加载时量化

PTQ量化，GPTQ、GGUF、AWQ，保存模型时量化

大模型量化【1】- 基础概念与方法

大模型量化【2】- ZeroQuant系列

大模型量化【3】 - vLLM

vllm原理-PageAttention 和 share memory

连续批处理 continuous batching

大模型量化【5】-SmoothQuant

大模型量化【6】- llama.cpp

模型部署

树莓派 ollama 边缘部署

经验总结

A100集群正常 A800集群训练失败

知识图谱

RAG

### 高阶

reranker微调和评估

### RAG + 知识图谱

RAG+知识图谱（GraphRag）基础

实现方式

案例收集

### 意图-槽位-路由-多轮

### 文档解析

大模型下的文本解析

RAG - 多模态问答、unstructured 文本解析（包括表格和图片OCR）

多模态文档处理工具收集（都是未验证的）

python-docx顺序解析word中的表格、图片、段落

### 开源框架

RAGFlow-开源知识库搭建问诊助手

RAG - 材料很漂亮

Agent

workflows、agents、agent系统

Agent 四种关键设计模式

### function call

Function Calling 原理与实战

Function Call 的一些疑惑和思考

Function Call 能力提升训练

跨模型的Function_Calling

### Agent 框架

Agent设计模式 - ReAct

Agent 规划能力

### 多Agent

Multi Agent 软件框架设计及 Llamaindex 实现

Multi Agent 协作模式

Agent 启发案例

RPA+Agent

Agent平台

### dify

Dify 安装

Dify 接入微信生态

Dify 集成 Ollama 和 Xinference

dify 应用笔记

Dify 基于多模态的多种发票识别

Text2SQL

text2sql 及优化

KeyInst: 通过关键指令来提升Text2SQL

text2sql优化框架 Vanna

text2sql 框架 Chat2DB

### DB-GPT

DB-gpt and Text2sql

资源收集

### 优质有用且可用的资源

雅意信息抽取大模型

### 其他资源

数字人和ASR资源

参考资料：

发表于 2023-12-30 14:29 努力的孔子阅读(182) 评论(0) 编辑收藏举报

刷新页面返回顶部

LLM生态圈：transformer、HuggingFace、GPU、分布式、量化-加速-部署、Agent、多模态 等 原理、代码、应用

LLM

## 网络结构

## 微调原理

## 行业LLM微调-思路流程方法