HuggingFace - 随笔分类 - 张Zong在修行

HuggingFace | 基础组件之Pipeline

摘要：### 什么是Pipeline + **Pipeline** + 将数据预处理、模型调用、结果后处理三部分组装成的流水线 + 使我们能够直接输入文本便获得最终的答案 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-2023073 阅读全文

posted @ 2023-07-31 11:46 张Zong在修行阅读(744) 评论(0) 推荐(1) 编辑

HuggingFace | 使用Roberta训练一个牛客网讨论贴文本分类模型

摘要：**训练一个NLU模型** 本文将使用trainer 训练一个牛客网讨论帖文本分类模型。详细过程如下： #### 构建数据集数据集下载链接： [train data](https://github.com/chadqiu/newcoder-crawler/blob/main/train.csv) 阅读全文

posted @ 2023-07-30 18:31 张Zong在修行阅读(542) 评论(0) 推荐(0) 编辑

HuggingFace | config.json参数讲解

摘要：在Hugging Face中，`config.json`文件是用于配置预训练模型参数的文件。这个文件通常包含了模型的架构、超参数和其他模型配置信息。它是一个JSON格式的文件，可以在加载模型时用来初始化模型的配置。在加载模型时，`from_pretrained()`方法通常会自动加载相应的`con 阅读全文

posted @ 2023-07-30 12:22 张Zong在修行阅读(5060) 评论(1) 推荐(0) 编辑

HuggingFace | 各种tokenizer有啥区别

摘要：在 Hugging Face 中，有多种不同的 tokenizer 实现可供选择，每种实现都有其独特的优缺点和用途。 1. `BertTokenizer`：适用于 BERT 模型，支持 WordPiece 分词和 Byte-Pair Encoding（BPE）分词算法。它还支持对输入序列进行截断和填阅读全文

posted @ 2023-07-30 11:49 张Zong在修行阅读(2805) 评论(0) 推荐(1) 编辑

HuggingFace | HuggingFace中from_pretrained函数的加载

摘要：我们使用huggingface的`from_pretrained()`函数加载模型和`tokenizer`，那么加载这些需要什么文件？ ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230729184714304-1663 阅读全文

posted @ 2023-07-29 18:47 张Zong在修行阅读(4750) 评论(0) 推荐(0) 编辑

Huggingface | 修改模型的embedding

摘要：**目标：** 在NLP领域，基于公开语料的预训练模型，在专业领域迁移时，会遇到专业领域词汇不在词汇表的问题，本文介绍如何添加专有名词到预训练模型。 NLP的处理流程： 1. 对输入的句子进行分词，得到词语及下标 2. 通过embedding层获得词语对应的embedding 3. embeddin 阅读全文

posted @ 2023-07-29 18:29 张Zong在修行阅读(3424) 评论(1) 推荐(0) 编辑

HuggingFace | huggingface中遇到的坑

摘要：### 一、不要尝试使用huggingface的Trainer函数加载自定义模型理论上说，Hugging Face的Trainer函数可以加载自定义模型，只要您的模型是基于PyTorch或TensorFlow实现的，并且实现了必要的方法（如`forward`方法和`from_pretrained` 阅读全文

posted @ 2023-07-07 12:14 张Zong在修行阅读(882) 评论(0) 推荐(0) 编辑

Huggingface | 使用WMT16数据集微调BART训练新的标记进行翻译

摘要：BART模型是用来预训练seq-to-seq模型的降噪自动编码器（autoencoder）。它是一个序列到序列的模型，具有对损坏文本的双向编码器和一个从左到右的自回归解码器，所以它可以完美的执行翻译任务。如果你想在翻译任务上测试一个新的体系结构，比如在自定义数据集上训练一个新的标记，那么处理起来会阅读全文

posted @ 2023-07-06 20:51 张Zong在修行阅读(214) 评论(1) 推荐(0) 编辑

HuggingFace | 如何下载数据集并加载

摘要：HuggingFace中对于数据集的使用有个`datasets`库。`datasets`是一个用于加载和处理各种自然语言处理（NLP）数据集的Python库，它由Hugging Face开发。该库提供了一个统一的API，可以方便地访问多个数据集，并且支持自定义数据集。`datasets`库的主要特点阅读全文

posted @ 2023-07-06 13:15 张Zong在修行阅读(25356) 评论(0) 推荐(1) 编辑

HuggingFace | 如何下载预训练模型

摘要：本例我们在Linux上进行下载，下载的模型是`bert-base-uncased`。下载网址为：https://www.huggingface.co/bert-base-uncased huggingface的transformers框架，囊括了BERT、GPT、GPT2、ToBERTa、T5等众阅读全文

posted @ 2023-07-05 12:36 张Zong在修行阅读(13764) 评论(0) 推荐(1) 编辑

zhangxuegold

随笔分类 - HuggingFace

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论