随笔分类 -  HuggingFace

摘要:### 什么是Pipeline + **Pipeline** + 将数据预处理、模型调用、结果后处理三部分组装成的流水线 + 使我们能够直接输入文本便获得最终的答案 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-2023073 阅读全文
posted @ 2023-07-31 11:46 张Zong在修行 阅读(744) 评论(0) 推荐(1) 编辑
摘要:**训练一个NLU模型** 本文将使用trainer 训练一个牛客网讨论帖文本分类模型。详细过程如下: #### 构建数据集 数据集下载链接: [train data](https://github.com/chadqiu/newcoder-crawler/blob/main/train.csv) 阅读全文
posted @ 2023-07-30 18:31 张Zong在修行 阅读(542) 评论(0) 推荐(0) 编辑
摘要:在Hugging Face中,`config.json`文件是用于配置预训练模型参数的文件。这个文件通常包含了模型的架构、超参数和其他模型配置信息。它是一个JSON格式的文件,可以在加载模型时用来初始化模型的配置。 在加载模型时,`from_pretrained()`方法通常会自动加载相应的`con 阅读全文
posted @ 2023-07-30 12:22 张Zong在修行 阅读(5060) 评论(1) 推荐(0) 编辑
摘要:在 Hugging Face 中,有多种不同的 tokenizer 实现可供选择,每种实现都有其独特的优缺点和用途。 1. `BertTokenizer`:适用于 BERT 模型,支持 WordPiece 分词和 Byte-Pair Encoding(BPE)分词算法。它还支持对输入序列进行截断和填 阅读全文
posted @ 2023-07-30 11:49 张Zong在修行 阅读(2805) 评论(0) 推荐(1) 编辑
摘要:我们使用huggingface的`from_pretrained()`函数加载模型和`tokenizer`,那么加载这些需要什么文件? ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230729184714304-1663 阅读全文
posted @ 2023-07-29 18:47 张Zong在修行 阅读(4750) 评论(0) 推荐(0) 编辑
摘要:**目标:** 在NLP领域,基于公开语料的预训练模型,在专业领域迁移时,会遇到专业领域词汇不在词汇表的问题,本文介绍如何添加专有名词到预训练模型。 NLP的处理流程: 1. 对输入的句子进行分词,得到词语及下标 2. 通过embedding层获得词语对应的embedding 3. embeddin 阅读全文
posted @ 2023-07-29 18:29 张Zong在修行 阅读(3424) 评论(1) 推荐(0) 编辑
摘要:### 一、不要尝试使用huggingface的Trainer函数加载自定义模型 理论上说,Hugging Face的Trainer函数可以加载自定义模型,只要您的模型是基于PyTorch或TensorFlow实现的,并且实现了必要的方法(如`forward`方法和`from_pretrained` 阅读全文
posted @ 2023-07-07 12:14 张Zong在修行 阅读(882) 评论(0) 推荐(0) 编辑
摘要:BART模型是用来预训练seq-to-seq模型的降噪自动编码器(autoencoder)。它是一个序列到序列的模型,具有对损坏文本的双向编码器和一个从左到右的自回归解码器,所以它可以完美的执行翻译任务。 如果你想在翻译任务上测试一个新的体系结构,比如在自定义数据集上训练一个新的标记,那么处理起来会 阅读全文
posted @ 2023-07-06 20:51 张Zong在修行 阅读(214) 评论(1) 推荐(0) 编辑
摘要:HuggingFace中对于数据集的使用有个`datasets`库。`datasets`是一个用于加载和处理各种自然语言处理(NLP)数据集的Python库,它由Hugging Face开发。该库提供了一个统一的API,可以方便地访问多个数据集,并且支持自定义数据集。`datasets`库的主要特点 阅读全文
posted @ 2023-07-06 13:15 张Zong在修行 阅读(25356) 评论(0) 推荐(1) 编辑
摘要:本例我们在Linux上进行下载,下载的模型是`bert-base-uncased`。 下载网址为:https://www.huggingface.co/bert-base-uncased huggingface的transformers框架,囊括了BERT、GPT、GPT2、ToBERTa、T5等众 阅读全文
posted @ 2023-07-05 12:36 张Zong在修行 阅读(13764) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示