Transformers--4-37-中文文档-二十一-

Transformers 4.37 中文文档（二十一）

原文：huggingface.co/docs/transformers

Llama2

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/llama2

概述

Llama2 模型是由 Hugo Touvron、Louis Martin、Kevin Stone、Peter Albert、Amjad Almahairi、Yasmine Babaei、Nikolay Bashlykov、Soumya Batra、Prajjwal Bhargava、Shruti Bhosale、Dan Bikel、Lukas Blecher、Cristian Canton Ferrer、Moya Chen、Guillem Cucurull、David Esiobu、Jude Fernandes、Jeremy Fu、Wenyin Fu、Brian Fuller、Cynthia Gao、Vedanuj Goswami、Naman Goyal、Anthony Hartshorn、Saghar Hosseini、Rui Hou、Hakan Inan、Marcin Kardas、Viktor Kerkez Madian Khabsa、Isabel Kloumann、Artem Korenev、Punit Singh Koura、Marie-Anne Lachaux、Thibaut Lavril、Jenya Lee、Diana Liskovich、Yinghai Lu、Yuning Mao、Xavier Martinet、Todor Mihaylov、Pushka rMishra、Igor Molybog、Yixin Nie、Andrew Poulton、Jeremy Reizenstein、Rashi Rungta、Kalyan Saladi、Alan Schelten、Ruan Silva、Eric Michael Smith、Ranjan Subramanian、Xiaoqing EllenTan、Binh Tang、Ross Taylor、Adina Williams、Jian Xiang Kuan、Puxin Xu、Zheng Yan、Iliyan Zarov、Yuchen Zhang、Angela Fan、Melanie Kambadur、Sharan Narang、Aurelien Rodriguez、Robert Stojnic、Sergey Edunov、Thomas Scialom 提出的，它是一个包含从 7B 到 70B 参数的基础语言模型的集合，具有为聊天应用程序调优的检查点！

论文的摘要如下：

在这项工作中，我们开发并发布了 Llama 2，这是一组预训练和调优的大型语言模型（LLMs），规模从 70 亿到 700 亿参数不等。我们调优的 LLMs，称为 Llama 2-Chat，针对对话用例进行了优化。我们的模型在我们测试的大多数基准上优于开源聊天模型，并根据我们的人类评估，对于帮助和安全性，可能是封闭源模型的合适替代品。我们提供了关于我们对 Llama 2-Chat 进行调优和安全改进方法的详细描述，以便使社区能够在我们的工作基础上构建并促进 LLMs 的负责任发展。

查看所有 Llama2 模型检查点这里。该模型由Arthur Zucker贡献，Lysandre Debut也有贡献。Hugging Face 中的实现代码基于 GPT-NeoX 这里。作者的原始代码可以在这里找到。

使用提示

Llama2模型是使用bfloat16进行训练的，但原始推断使用float16。Hub 上上传的检查点使用torch_dtype='float16'，AutoModel API 将使用它将检查点从torch.float32转换为torch.float16。

在线权重的dtype大多不相关，除非您在使用model = AutoModelForCausalLM.from_pretrained("path", torch_dtype = "auto")初始化模型时使用torch_dtype="auto"。原因是模型将首先被下载（使用在线检查点的dtype），然后将被转换为torch的默认dtype（变为torch.float32），最后，如果配置中提供了torch_dtype，则将使用它。

不建议在float16中训练模型，已知会产生nan；因此，模型应该在bfloat16中进行训练。

提示：

Llama2 模型的权重可以通过填写此表格获得
该架构与第一个 Llama 非常相似，增加了 Grouped Query Attention（GQA），参考这篇论文
将 config.pretraining_tp 设置为与 1 不同的值将激活线性层的更准确但更慢的计算，这应该更好地匹配原始对数。
原始模型使用 pad_id = -1，这意味着没有填充标记。我们不能使用相同的逻辑，确保使用 tokenizer.add_special_tokens({"pad_token":"<pad>"}) 添加一个填充标记，并相应调整令牌嵌入。您还应该设置 model.config.pad_token_id。模型的 embed_tokens 层使用 self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.config.padding_idx) 进行初始化，这确保了对填充标记进行编码将输出零，因此在初始化时传递它是推荐的。
填写表格并获得模型检查点访问权限后，您应该能够使用已转换的检查点。否则，如果您正在转换自己的模型，请随时使用转换脚本。可以使用以下（示例）命令调用脚本：

python src/transformers/models/llama/convert_llama_weights_to_hf.py \
    --input_dir /path/to/downloaded/llama/weights --model_size 7B --output_dir /output/path

转换后，可以通过以下方式加载模型和分词器：

from transformers import LlamaForCausalLM, LlamaTokenizer

tokenizer = LlamaTokenizer.from_pretrained("/output/path")
model = LlamaForCausalLM.from_pretrained("/output/path")

请注意，执行脚本需要足够的 CPU RAM 以在 float16 精度中托管整个模型（即使最大版本分为多个检查点，每个检查点都包含模型的每个权重的一部分，因此我们需要将它们全部加载到 RAM 中）。对于 75B 模型，因此需要 145GB 的 RAM。

LLaMA 分词器是基于 sentencepiece 的 BPE 模型。sentencepiece 的一个特点是，在解码序列时，如果第一个令牌是单词的开头（例如“Banana”），分词器不会在字符串前面添加前缀空格。
通过 attn_implementation="flash_attention_2" 使用 Flash Attention 2 时，不要将 torch_dtype 传递给 from_pretrained 类方法，并使用自动混合精度训练。当使用 Trainer 时，只需将 fp16 或 bf16 指定为 True。否则，请确保您使用 torch.autocast。这是必需的，因为 Flash Attention 仅支持 fp16 和 bf16 数据类型。

资源

一个官方 Hugging Face 和社区（由 🌎 表示）资源列表，可帮助您开始使用 LLaMA2。如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将对其进行审查！资源应该理想地展示一些新内容，而不是重复现有资源。

Llama 2 已发布 - 在 Hugging Face 上获取，关于 Llama 2 及如何与 🤗 Transformers 和 🤗 PEFT 一起使用的博客文章。
LLaMA 2 - 您需要的所有资源，一个相关资源的汇编，用于了解 LLaMA 2 并快速入门。

文本生成

一个关于如何在 Google Colab 中使用 QLoRA 和 4 位精度对 Llama 2 进行微调的笔记本。🌎
一个关于如何使用 4 位 QLoRA 对“Llama-v2-7b-guanaco”模型进行微调并从 PDF 中生成问答数据集的笔记本。🌎

文本分类

一个关于如何使用 QLoRa、TRL 和韩文文本分类数据集对 Llama 2 模型进行微调的笔记本。🌎🇰🇷

⚗️ 优化

使用 DPO 对 Llama 2 进行微调，一个指南，介绍如何使用 TRL 库的 DPO 方法对特定数据集上的 Llama 2 进行微调。
扩展指南：指导调整 Llama 2，一个指南，用于训练 Llama 2 从输入生成指令，将模型从遵循指令转变为给出指令。
一个笔记本，介绍如何在个人计算机上使用 QLoRa 和 TRL 对 Llama 2 模型进行微调。

⚡️ 推理

一个笔记本，介绍如何使用 AutoGPTQ 库中的 GPTQ 对 Llama 2 模型进行量化。
一个笔记本，介绍如何在本地计算机或 Google Colab 上运行带有 4 位量化的 Llama 2 Chat Model。

🚀 部署

在亚马逊 SageMaker 上对 LLaMA 2 (7-70B) 进行微调，从设置到 QLoRA 微调和部署的完整指南。
在亚马逊 SageMaker 上部署 Llama 2 7B/13B/70B，使用 Hugging Face 的 LLM DLC 容器进行安全和可扩展部署的指南。

龙哥盟

掠夺·扩张·投机·博弈

Transformers--4-37-中文文档-二十一-

Transformers 4.37 中文文档（二十一）

Llama2

概述

使用提示

资源

LlamaConfig

class transformers.LlamaConfig

LlamaTokenizer

class transformers.LlamaTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

LlamaTokenizerFast

class transformers.LlamaTokenizerFast

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

update_post_processor

save_vocabulary

LlamaModel

class transformers.LlamaModel

forward

LlamaForCausalLM

class transformers.LlamaForCausalLM

forward

LlamaForSequenceClassification

class transformers.LlamaForSequenceClassification

forward

Longformer

概述

使用提示

Longformer 自注意力

训练

资源

LongformerConfig

class transformers.LongformerConfig

LongformerTokenizer

class transformers.LongformerTokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

create_token_type_ids_from_sequences

get_special_tokens_mask

LongformerTokenizerFast

class transformers.LongformerTokenizerFast

create_token_type_ids_from_sequences

Longformer 特定输出

class transformers.models.longformer.modeling_longformer.LongformerBaseModelOutput

class transformers.models.longformer.modeling_longformer.LongformerBaseModelOutputWithPooling

class transformers.models.longformer.modeling_longformer.LongformerMaskedLMOutput

class transformers.models.longformer.modeling_longformer.LongformerQuestionAnsweringModelOutput

class transformers.models.longformer.modeling_longformer.LongformerSequenceClassifierOutput

class transformers.models.longformer.modeling_longformer.LongformerMultipleChoiceModelOutput

class transformers.models.longformer.modeling_longformer.LongformerTokenClassifierOutput

class transformers.models.longformer.modeling_tf_longformer.TFLongformerBaseModelOutput

class transformers.models.longformer.modeling_tf_longformer.TFLongformerBaseModelOutputWithPooling

class transformers.models.longformer.modeling_tf_longformer.TFLongformerMaskedLMOutput

class transformers.models.longformer.modeling_tf_longformer.TFLongformerQuestionAnsweringModelOutput

class transformers.models.longformer.modeling_tf_longformer.TFLongformerSequenceClassifierOutput

class transformers.models.longformer.modeling_tf_longformer.TFLongformerMultipleChoiceModelOutput

class transformers.models.longformer.modeling_tf_longformer.TFLongformerTokenClassifierOutput

LongformerModel

class transformers.LongformerModel

forward

LongformerForMaskedLM

class transformers.LongformerForMaskedLM

forward

LongformerForSequenceClassification

class transformers.LongformerForSequenceClassification

forward

LongformerForMultipleChoice

class transformers.LongformerForMultipleChoice

forward

LongformerForTokenClassification

class transformers.LongformerForTokenClassification

forward

LongformerForQuestionAnswering

`class transformers.LlamaConfig`

`class transformers.LlamaTokenizer`

`build_inputs_with_special_tokens`

`get_special_tokens_mask`

`create_token_type_ids_from_sequences`

`save_vocabulary`

`class transformers.LlamaTokenizerFast`

`build_inputs_with_special_tokens`

`get_special_tokens_mask`

`create_token_type_ids_from_sequences`

`update_post_processor`

`save_vocabulary`

`class transformers.LlamaModel`

`forward`

`class transformers.LlamaForCausalLM`

`forward`

`class transformers.LlamaForSequenceClassification`

`forward`

`class transformers.LongformerConfig`

`class transformers.LongformerTokenizer`

`build_inputs_with_special_tokens`

`convert_tokens_to_string`

`create_token_type_ids_from_sequences`

`get_special_tokens_mask`

`class transformers.LongformerTokenizerFast`

`create_token_type_ids_from_sequences`

`class transformers.models.longformer.modeling_longformer.LongformerBaseModelOutput`

`class transformers.models.longformer.modeling_longformer.LongformerBaseModelOutputWithPooling`

`class transformers.models.longformer.modeling_longformer.LongformerMaskedLMOutput`

`class transformers.models.longformer.modeling_longformer.LongformerQuestionAnsweringModelOutput`

`class transformers.models.longformer.modeling_longformer.LongformerSequenceClassifierOutput`

`class transformers.models.longformer.modeling_longformer.LongformerMultipleChoiceModelOutput`

`class transformers.models.longformer.modeling_longformer.LongformerTokenClassifierOutput`

`class transformers.models.longformer.modeling_tf_longformer.TFLongformerBaseModelOutput`

`class transformers.models.longformer.modeling_tf_longformer.TFLongformerBaseModelOutputWithPooling`

`class transformers.models.longformer.modeling_tf_longformer.TFLongformerMaskedLMOutput`

`class transformers.models.longformer.modeling_tf_longformer.TFLongformerQuestionAnsweringModelOutput`

`class transformers.models.longformer.modeling_tf_longformer.TFLongformerSequenceClassifierOutput`

`class transformers.models.longformer.modeling_tf_longformer.TFLongformerMultipleChoiceModelOutput`

`class transformers.models.longformer.modeling_tf_longformer.TFLongformerTokenClassifierOutput`

`class transformers.LongformerModel`

`forward`

`class transformers.LongformerForMaskedLM`

`forward`

`class transformers.LongformerForSequenceClassification`

`forward`

`class transformers.LongformerForMultipleChoice`

`forward`

`class transformers.LongformerForTokenClassification`

`forward`

`class transformers.LongformerForQuestionAnswering`

`forward`

`class transformers.TFLongformerModel`

`call`

`class transformers.TFLongformerForMaskedLM`

`call`

`class transformers.TFLongformerForQuestionAnswering`

`call`

`class transformers.TFLongformerForSequenceClassification`

`call`

`class transformers.TFLongformerForTokenClassification`

`call`

`class transformers.TFLongformerForMultipleChoice`

`call`

`class transformers.LongT5Config`

`class transformers.LongT5Model`

`forward`

`class transformers.LongT5ForConditionalGeneration`

`forward`

`class transformers.LongT5EncoderModel`

`forward`

`class transformers.FlaxLongT5Model`

`call`

`encode`

`decode`

`class transformers.FlaxLongT5ForConditionalGeneration`

`call`

`encode`

`decode`

`class transformers.LukeConfig`