随笔分类 - HuggingFace
摘要:### 什么是Pipeline + **Pipeline** + 将数据预处理、模型调用、结果后处理三部分组装成的流水线 + 使我们能够直接输入文本便获得最终的答案 
阅读全文
摘要:在Hugging Face中,`config.json`文件是用于配置预训练模型参数的文件。这个文件通常包含了模型的架构、超参数和其他模型配置信息。它是一个JSON格式的文件,可以在加载模型时用来初始化模型的配置。 在加载模型时,`from_pretrained()`方法通常会自动加载相应的`con
阅读全文
摘要:在 Hugging Face 中,有多种不同的 tokenizer 实现可供选择,每种实现都有其独特的优缺点和用途。 1. `BertTokenizer`:适用于 BERT 模型,支持 WordPiece 分词和 Byte-Pair Encoding(BPE)分词算法。它还支持对输入序列进行截断和填
阅读全文
摘要:我们使用huggingface的`from_pretrained()`函数加载模型和`tokenizer`,那么加载这些需要什么文件? 。它是一个序列到序列的模型,具有对损坏文本的双向编码器和一个从左到右的自回归解码器,所以它可以完美的执行翻译任务。 如果你想在翻译任务上测试一个新的体系结构,比如在自定义数据集上训练一个新的标记,那么处理起来会
阅读全文
摘要:HuggingFace中对于数据集的使用有个`datasets`库。`datasets`是一个用于加载和处理各种自然语言处理(NLP)数据集的Python库,它由Hugging Face开发。该库提供了一个统一的API,可以方便地访问多个数据集,并且支持自定义数据集。`datasets`库的主要特点
阅读全文
摘要:本例我们在Linux上进行下载,下载的模型是`bert-base-uncased`。 下载网址为:https://www.huggingface.co/bert-base-uncased huggingface的transformers框架,囊括了BERT、GPT、GPT2、ToBERTa、T5等众
阅读全文