LLM面试题汇总

LLM相关

LLM基础

zero shot、one shot、three shot是什么
bf16和fp16有什么区别

LLM微调

Adpter Tuning
Prefix Tuning
LoRA原理

LoRA（Low-Rank Adaptation of Large Language Models）是一种用于高效微调大语言模型的方法。它的核心思想是在预训练模型权重矩阵上额外引入两个低秩矩阵，在微调过程中通过更新低秩矩阵从而实现在目标任务或领域的迁移，有效地减少了需要更新的参数量，并且降低了微调的计算和存储成本。训练完成后只需要将两个低秩矩阵的乘积加回到原始权重矩阵中从而得到更新后的模型。
QLoRA原理

Prompt

LangGPT

LLM应用

Transformer

解释self attention 和 cross attention
为什么要除以 \(\sqrt{d}\)

\(Attn(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d}})\)

当\(d_{k}\)变大导致\(QK^{T}\)的方差变大，导致元素之间的差异变大，会造成softmax函数退化成argmax
BERT和Transformer的区别
手写Transformer

GPT相关

GPT架构（GPT和Transformer的区别）

Llama相关

Llama2架构
Llama2 transformer block 里做了哪些改变
为什么Llama2中使用了RMSNorm 而不用 LayerNorm
为什么用RoPE不用绝对位置编码，RoPE能表示绝对位置信息吗
为什么现在主流都用Decoder-only而不是Encoder-decoder

posted @ 2024-09-09 15:06 MaximeSHE 阅读(41) 评论(0) 编辑收藏举报

刷新页面返回顶部