原理与案例 篇 代码/技术细节 与工具 篇 压缩、量化、加速、部署/训练加速 应用篇

LLM

大语言模型一览 

prompt 技巧 汇总

Scaling law

LLM模型评估

## 网络结构

LLM 架构、Attention矩阵,分析 LLM 采用 decode-only

所有norm汇总(bn-ln-rms-deep-prenorm-postnorm)

GLM and ChatGLM 架构解析 与 微调逻辑 

大模型结构优化-MQA/GQA 

kv cache 加速LLM推理

## 微调原理

数据为王

合成数据的质量控制

大模型 高效微调 原理篇

QLoRa

大模型微调 总结(都是精华) 

SFT 深入分析

微调细节 - 面经

## 行业LLM微调-思路流程方法

行业LLM[1]-训练流程

行业LLM[2]-流程&源码剖析

行业大模型 微调 经验总结

行业LLM微调 tricks

LLM微调 SFT指令数据生成 

长上下文扩展 预训练 策略 

post-training

预训练数据和指令微调数据能混合一起微调模型吗

## 案例与产品

LLM微调 案例汇总

行业LLM典型案例:MedicalGPT、EmoLLM心理

垂直大模型-收集

 

视觉大模型

Vision Transformer(ViT)

swin transformer

 

多模态大模型

多模态大模型基本架构

多模态任务

CLIP-图文检索

BLIP

BLIP2

变分自编码器VAE

VQ-VAE

VQ and RVQ

RVQ Encodec 语音压缩

LLaVA、LLaVA1.5、LLaVA Next

LLaVA 实战 

LLaVA 改进

Adapter 多模态连接器

MiniGPT-4

Qwen-vl

dalle-文生图

dalle2-3

多模态大模型Qwen2

 

MOE

混合专家模型 MOE

MOE在视觉模型 Vision-MoE 中的应用

deepseek 进化史

DeepSeek-MLA框架

DeepSeek-V3

deepseek-R1 蒸馏细节

模型蒸馏 对大模型时代 的危害

RL训练 实战案例

 

模型原理

## Attention

注意力机制【1】-入门篇

注意力机制【2】- CV中的注意力机制

注意力机制【3】-Self Attention

注意力机制【4】-多头注意力机制

注意力机制【5】Scaled Dot-Product Attention 和 mask attention

注意力机制【6】多种 attention 分析汇总 

Cross-attention

多头注意力机制中head_mask的作用

注意力机制 深度剖析 - 位置、适用任务 分析,不合适的注意力反而效果变差

## transformer 

transformer-网络结构

Bert -基本原理 

Bert - 应用指南 

GPT

gpt2 code

## LLM

transformer-正弦位置编码

视觉位置编码

旋转位置编码 RoPE,支持长度扩展,外推性好 

transformer 架构优化

past_key_value 的作用

从零开始基于transformers库搭建Llama 

 

# ChatGLM

 

# LLAMA

Llama3-chinese lora+推理 

 

Embedding

Embedding 模型一览 选择 及使用

embedding - bi encode AND cross encode

Embedding微调实战

embedding 之 sentence_transformers 原理、用法、微调

embedding 生成数据集,训练指标,基于 llama_index 微调

优质的 embedding 资源

BGE-智源 embedding 模型

Embedding工作原理 - 材料漂亮

 

相关知识

对比学习 及 SimCLR


HuggingFace

Huggingface镜像站hf-mirror.com下载资源

Hugging Face 文档库指南

加载所有大模型代码

https://hf-mirror.com/docs/transformers/index

llama 模型申请

### datasets

datasets 

### Tokenizers

tokenizer - subword算法 BPE、WordPiece、ULM

tokenizer原理、用法、训练自己的 tokenizer

词表预留 与 加词

tokenizer 的还原

tokenizer 中 attention_mask 在处理多个序列时的作用 

### transformers

transformers库-Models

transformers库-tokenizer分词器

Chat 数据模板-chat_template 构建LLM输入

transformers库-BERT中的Tokenizer

transformers-微调模型

transformers库-优化器

### Accelerate

Accelerate库加载和运行超大模型

transformers+accelerate设置分布式训练

### PEFT

PEFT库-基本用法与实战(llama2 量化并微调 ) 

PEFT 加载 adapters 

PEFT库-详细使用流程

### TRL

TRL :一款利用强化学习训练Transformer模型的框架 

### gradio

前端神器 - gradio 日常使用注意点

 

分布式训练

### DeepSpeed

分布式训练 代码编写 的基本逻辑

deepspeed 安装、基本用法、异常记录 

deepspeed 参数传递 与 数据集生成

deepspeed 原理

deepspeed 多机多卡训练

deepspeed 集群训练LLM完整实战

### 其他

分布式训练 基本概念

PyTorch 分布式训练

流水线并行

 

推理微调 代码/底层逻辑

### 细节代码实现-深入理解LLM

pre-train

### 实战

LLM训练 基本流程-从0到1复现斯坦福羊驼 Alpaca

全流程微调代码,以 Qwen2 为例 (LoRA 参数高效微调和 SwanLab 可视化监控)

ChatGLM 微调 细节1-构建数据集

LoRA 实战 - 利用 lora 微调 CNN

Prompt Learning 完成下游任务:基于bert的情感分类 

 

推理微调 工具/框架

大模型微调 - 工具型框架

### 魔搭swift

LLM推理微调框架 -魔搭ModelScope开源社区 swift 

swift - 自我认知微调最佳实践(微调、推理、AWQ量化、vllm推理)

swift - Agent 微调与部署 实战

swift-增量预训练

linux 异常记录 - swift分布式训练 环境

### LLAMA Factory 

LLM推理微调框架 LLama-Factory

LLaMA-Factory-微调实现function calling

LlamaFactory 实体识别及评估

llama factory - 微调任务类型/案例汇总

 

大模型训练所需算力估计

大模型 相关知识(未整理)

 

### 部署工具

LLM 本地化部署工具 - Ollama 

 

DataBase

neo4j 基础语法

向量数据库 及 LangChain 用法

Milvus

训练优化

多轮对话 微调(ChatGLM) 

 

训练加速

混合精度训练

torch.cuda.amp.autocast 自动混合精度计算 与 混合精度训练

Flash Attention

 

推理加速

LLM推理评测与优化

 

模型量化

大模型量化及低成本部署 

位->字节->数据类型-->模型参数 

量化 基本概念、原理、分类

NormalFloat 4-bit(NF4)量化

INT8 量化 和 bitsandbytes 安装使用,PTQ加载时量化

PTQ量化,GPTQ、GGUF、AWQ,保存模型时量化

大模型量化【1】- 基础概念与方法

大模型量化【2】- ZeroQuant系列

大模型量化【3】 - vLLM 

vllm原理-PageAttention 和 share memory

连续批处理 continuous batching

大模型量化【5】-SmoothQuant 

大模型量化【6】- llama.cpp

 

模型部署

树莓派 ollama 边缘部署

 

经验总结

A100集群正常 A800集群训练失败

 

知识图谱

知识图谱 基础

知识图谱 推理

知识图谱构建 框架

图谱可视化工具

GCN

图相似度

 

RAG

RAG-基础知识与技术

RAG优化-文档数据处理

基于语义的递归分块策略

迟分块策略 Late Chunking

RAG 框架优化

RAG 优化1

RAG 优化3

智能客服

多模态RAG

### 高阶

reranker微调和评估

### RAG + 知识图谱

RAG+知识图谱(GraphRag)基础

实现方式

案例收集

### 意图-槽位-路由-多轮 

意图识别与槽位填充

Joint BERT 意图和槽位联合识别

rag中的Router路由设计

RAG多轮对话中的 指代消歧,问题生成 

### 文档解析 

大模型下的文本解析

RAG - 多模态问答、unstructured 文本解析(包括表格和图片OCR)

多模态 文档处理工具收集 (都是未验证的)

python-docx顺序解析word中的表格、图片、段落

### 开源框架

RAGFlow-开源知识库搭建问诊助手

RAG - 材料很漂亮

 

Agent

Agent 

workflows、agents、agent系统

Agent 四种关键 设计模式

### function call

Function Calling 原理与实战

Function Call 的一些疑惑和思考

Function Call 能力提升训练 

跨模型的Function_Calling

### Agent 框架

Agent设计模式 - ReAct

Agent 规划能力

### 多Agent

Multi Agent 软件框架设计 及 Llamaindex 实现

Multi Agent 协作模式

 

Agent 启发 案例

RPA+Agent

 

Agent平台

### dify

Dify 安装

Dify 接入微信生态

Dify 集成 Ollama 和 Xinference

dify 应用笔记

Dify 基于多模态的多种发票识别

 

Text2SQL

text2sql 及优化

KeyInst: 通过关键指令来提升Text2SQL

text2sql优化框架 Vanna

text2sql 框架 Chat2DB

### DB-GPT

DB-gpt and Text2sql

 

资源收集 

### 优质有用且可用的资源

雅意信息抽取大模型

### 其他资源

数字人和ASR资源 

 


 

 

 

 

 

参考资料: