大语言模型一览
prompt 技巧 汇总
Scaling law
LLM模型评估
大模型产生幻觉的本质
LLM 架构、Attention矩阵,分析 LLM 采用 decode-only
所有norm汇总(bn-ln-rms-deep-prenorm-postnorm)
GLM and ChatGLM 架构解析 与 微调逻辑
大模型结构优化-MQA/GQA
kv cache 加速LLM推理
数据为王
合成数据的质量控制
大模型 高效微调 原理篇
QLoRa
大模型微调 总结(都是精华)
SFT 深入分析
微调细节 - 面经
行业LLM[1]-训练流程
行业LLM[2]-流程&源码剖析
行业大模型 微调 经验总结
行业LLM微调 tricks
LLM微调 SFT指令数据生成
长上下文扩展 预训练 策略
post-training 方式与对比
预训练数据和指令微调数据能混合一起微调模型吗
基于 PPO 的 RLHF 详解
LLM微调 案例汇总
行业LLM典型案例:MedicalGPT、EmoLLM心理
垂直大模型-收集
Vision Transformer(ViT)
swin transformer
多模态大模型基本架构
多模态任务
CLIP-图文检索
BLIP
BLIP2
变分自编码器VAE
VQ-VAE
VQ and RVQ
RVQ Encodec 语音压缩
LLaVA、LLaVA1.5、LLaVA Next
LLaVA 实战
LLaVA 改进
Adapter 多模态连接器
MiniGPT-4
Qwen-vl
dalle-文生图
dalle2-3
多模态大模型Qwen2
混合专家模型 MOE
MOE在视觉模型 Vision-MoE 中的应用
deepseek 进化史
DeepSeek-MLA框架
DeepSeek-V3
PPO vs GRPO
DeepSeek 蒸馏体系
deepseek-R1 蒸馏细节
模型蒸馏 对大模型时代 的危害
RL训练 实战案例
注意力机制【1】-入门篇
注意力机制【2】- CV中的注意力机制
注意力机制【3】-Self Attention
注意力机制【4】-多头注意力机制
注意力机制【5】Scaled Dot-Product Attention 和 mask attention
注意力机制【6】多种 attention 分析汇总
Cross-attention
多头注意力机制中head_mask的作用
注意力机制 深度剖析 - 位置、适用任务 分析,不合适的注意力反而效果变差
transformer-网络结构
Bert -基本原理
Bert - 应用指南
GPT
gpt2 code
transformer-正弦位置编码
视觉位置编码
旋转位置编码 RoPE,支持长度扩展,外推性好
transformer 架构优化
past_key_value 的作用
从零开始基于transformers库搭建Llama
# ChatGLM
# LLAMA
LLaMA 3/2/1模型结构总览
Llama3-chinese lora+推理
Embedding 模型一览 选择 及使用
embedding - bi encode AND cross encode
Embedding微调实战
embedding 之 sentence_transformers 原理、用法、微调
embedding 生成数据集,训练指标,基于 llama_index 微调
优质的 embedding 资源
BGE-智源 embedding 模型
Embedding工作原理 - 材料漂亮
对比学习 及 SimCLR
|
Huggingface镜像站hf-mirror.com下载资源
Hugging Face 文档库指南
加载所有大模型代码
https://hf-mirror.com/docs/transformers/index

llama 模型申请
datasets
tokenizer - subword算法 BPE、WordPiece、ULM
tokenizer原理、用法、训练自己的 tokenizer
词表预留 与 加词
tokenizer 的还原
tokenizer 中 attention_mask 在处理多个序列时的作用
transformers库-Models
transformers库-tokenizer分词器
Chat 数据模板-chat_template 构建LLM输入
transformers库-BERT中的Tokenizer
transformers-微调模型
transformers库-优化器
Accelerate库加载和运行超大模型
transformers+accelerate设置分布式训练
PEFT库-基本用法与实战(llama2 量化并微调 )
PEFT 加载 adapters
PEFT库-详细使用流程
TRL :一款利用强化学习训练Transformer模型的框架
前端神器 - gradio 日常使用注意点
多卡通信协议
分布式通信原语
分布式训练 基本概念
数据并行 DP、DDP
流水线并行 PP
张量并行 TP
3D 并行
序列并行 SP
上下文并行 CP
分布式训练 代码编写 的基本逻辑
deepspeed 安装、基本用法、异常记录
deepspeed 参数传递 与 数据集生成
deepspeed 原理
deepspeed 多机多卡训练
deepspeed 集群训练LLM完整实战
pre-train
LLM训练 基本流程-从0到1复现斯坦福羊驼 Alpaca
全流程微调代码,以 Qwen2 为例 (LoRA 参数高效微调和 SwanLab 可视化监控)
ChatGLM 微调 细节1-构建数据集
LoRA 实战 - 利用 lora 微调 CNN
Prompt Learning 完成下游任务:基于bert的情感分类
大模型微调 - 工具型框架
LLM推理微调框架 -魔搭ModelScope开源社区 swift
swift - 自我认知微调最佳实践(微调、推理、AWQ量化、vllm推理)
swift - Agent 微调与部署 实战
swift-增量预训练
linux 异常记录 - swift分布式训练 环境
LLM推理微调框架 LLama-Factory
LLaMA-Factory-微调实现function calling
LlamaFactory 实体识别及评估
llama factory - 微调任务类型/案例汇总
大模型训练所需算力估计
大模型 相关知识(未整理)
LLM 本地化部署工具 - Ollama
neo4j 基础语法
向量数据库 及 LangChain 用法
Milvus
|
多轮对话 微调(ChatGLM)
混合精度训练
Flash Attention
LLM推理评测与优化
大模型量化及低成本部署
位->字节->数据类型-->模型参数
量化 基本概念、原理、分类
NormalFloat 4-bit(NF4)量化
INT8 量化 和 bitsandbytes 安装使用,PTQ加载时量化
PTQ量化,GPTQ、GGUF、AWQ,保存模型时量化
大模型量化【1】- 基础概念与方法
大模型量化【2】- ZeroQuant系列
大模型量化【3】 - vLLM
vllm原理-PageAttention 和 share memory
连续批处理 continuous batching
vLLM 集群部署
大模型量化【5】-SmoothQuant
大模型量化【6】- llama.cpp
树莓派 ollama 边缘部署
A100集群正常 A800集群训练失败
|
知识图谱 基础
知识图谱 推理
知识图谱构建 框架
图谱可视化工具
GCN
图相似度
RAG-基础知识与技术
RAG优化-文档数据处理
基于语义的递归分块策略
迟分块策略 Late Chunking
RAG 框架优化
RAG 优化1
RAG 优化3
智能客服
多模态RAG
reranker微调和评估
RAG+知识图谱(GraphRag)基础
实现方式
案例收集
意图识别与槽位填充
Joint BERT 意图和槽位联合识别
rag中的Router路由设计
RAG多轮对话中的 指代消歧,问题生成
大模型下的文本解析
RAG - 多模态问答、unstructured 文本解析(包括表格和图片OCR)
多模态 文档处理工具收集 (都是未验证的)
python-docx顺序解析word中的表格、图片、段落
RAGFlow-开源知识库搭建问诊助手
RAG - 材料很漂亮
Agent
workflows、agents、agent系统
Agent 四种关键 设计模式
Function Calling 原理与实战
Function Call 的一些疑惑和思考
Function Call 能力提升训练
跨模型的Function_Calling
Agent设计模式 - ReAct
Agent 规划能力
Multi Agent 软件框架设计 及 Llamaindex 实现
Multi Agent 协作模式
Agent 启发 案例
RPA+Agent
Dify 安装
Dify 接入微信生态
Dify 集成 Ollama 和 Xinference
dify 应用笔记
Dify 基于多模态的多种发票识别
text2sql 及优化
KeyInst: 通过关键指令来提升Text2SQL
text2sql优化框架 Vanna
text2sql 框架 Chat2DB
DB-gpt and Text2sql
雅意信息抽取大模型
数字人和ASR资源
|
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 我与微信审核的“相爱相杀”看个人小程序副业
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~
2019-12-30 吴恩达读书笔记【1】-偏差与方差