LLM大模型1_基础知识
首先,模型训练好后是原始版本,这个时候的模型是体积最大的,仅能通过transformers
使用.当然,这个时候的模型也是相容性最好的,基本上只要能支持transformers的机器都能跑起来.而transformers
算是AI界
最通用的算法系统了.
其次,由於原始模型体积大速度慢等因素很多大老们发明了将其缩小但是不那么影响模型品质的方式,那就是量化,现在最常见的量化方式就是GPTQ
和GGML
.我们一般都是使用量化后的模型因為他们需要的VRAM
或RAM
能够降低很多.比如33B
的模型没有量化大概需要50G~65G
的VRAM
或RAM
,量化后24G
就足够了.实际模型载入大概1XG
,剩下的空间用来推理使用,已经完全足够.
模型类型与装载器:
原始模型 | 装载器 | 名称标示特点 |
---|
原始模型 | transformers | 多个连续的数字编号档案构成,如001-of-008,002-of-008,003-of-008目录 |
GPTQ | AutoGPTQ | |
ExLlama | | |
ExLlama_HF | | |
GPTQ-for-LLaMa | | |
GGML | llama.cpp | 模型名称中包含GGML,只有一个文件扩展名为.bin |
名称说明
7B,13B,33B,65B,170B | 1B=10亿 |
---|
fp16 | fp16精度版,一般当作量化前的小体积原始版保存用 |
8K | 8K上下文长度的模型 |
4bit | 采用4bit量化的模型.一般為了节省VRAM或RAM |
128g | 量化中采用128g参数的模型.g=groupsize |
gpt4 | 采用gpt4的校准数据,也就是经过gpt4调教,一般是针对某些方面强化的,就目前来说常见的是聊天强化 |
Chat | 聊天强化 |
QLoRA | QLoRA微调的版本 |
LoRA | LoRA微调的版本 |
Uncensored | 未經審查版(去除了思想鋼印) |
NSFW | 在未經審查版本的基礎上针对NSFW(工作場所不宜)內容強化的版本 |
OPT | OPT格式,這不是LLaMa系列的模型.是由KoboldAI自己開發的系列,最初是用來寫作方面的,他們的數據都是未經審查且NSFW強化的 |
SuperHOT | 扩展上下文長度的版本 |
SuperCOT | LoRA加強模型逻辑,一般用來写作 |
资源占用
模型 | 原始尺寸所需RAM大小 | 量化后所需RAM大小(4bit) |
---|
7B | 13GB | 3.9GB |
13B | 24GB | 7.8GB |
30B | 60GB | 19.5GB |
65B | 120GB | 38.5GB |
Sanfor
LLM大模型1_基础知识
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)