随笔分类 - LLM原理
gpt
摘要:大模型问题汇总 llama 2注意力机制,手写分组注意力机制 GQA分组注意力机制(为了加速模型训练和推理,MHA每个head都需要一个QKV矩阵,于是有了将K,V矩阵分组,几个head共用一个KV矩阵,Q矩阵不变) MQA 则是所有的head共用KV矩阵 langchain介绍,主要组件 lang
阅读全文
摘要:为何decoder-only结构 总结:decoder-only在参数较少情况就能激发很强zero-shot能力,而且模型的上限更高,训练和推理都更有效率;在Incontext Learning情况下,few-shot能力更好 decoder-only结构的attention矩阵倒三角形满秩矩阵,表
阅读全文
摘要:核心问题点 60%内存存放参数,30%存放缓存的key,value向量,10%存放其他参数。 LLM相对传统深度学习,对cache的管理较差。 深度学习要求tensor内存连续,一般深度学习内存参数几乎不动,但LLM参数长度动态变化且周期无法预知导致cache内存碎片化 共享内存做的比较差。LLM
阅读全文
摘要:1. Self Attention 2. Scaled-dot-product 3. Multihead Attention 4. 代码部分 1. Self Attention 先计算权重: 再计算加权和 假设某个句子拆分词,每个词对应(k,q,v),那就是该词和剩余词的attention_scor
阅读全文
摘要:Position Encoding 1. 构造Position Encoding 几种方式 2. 位置编码可视化 3. 位置编码性质 Position Encoding 直入主题: 1. 构造Position Encoding 几种方式 一
阅读全文
摘要:Covariant Shift 深度学习ICS(Internal Covariate Shift) 解决ICS方法 BN(batch normalization) Layer Normalization Transformer LN 改进之 Pre-LN Covariant Shift 字面意思理解
阅读全文