随笔 - 128  文章 - 0  评论 - 75  阅读 - 11万

随笔分类 -  HuggingFace自然语言处理详解

使用自动模型
摘要:本文通过文本分类任务演示了HuggingFace自动模型使用方法,既不需要手动计算loss,也不需要手动定义下游任务模型,通过阅读自动模型实现源码,提高NLP建模能力。 一.任务和数据集介绍 1.任务介绍 前面章节通过手动方式定义下游任务模型,HuggingFace也提供了一些常见的预定义下游任务模 阅读全文
posted @ 2023-09-03 22:31 扫地升 阅读(356) 评论(0) 推荐(0) 编辑
中文命名实体识别
摘要:本文通过people_daily_ner数据集,介绍两段式训练过程,第一阶段是训练下游任务模型,第二阶段是联合训练下游任务模型和预训练模型,来实现中文命名实体识别任务。 一.任务和数据集介绍 1.命名实体识别任务 NER(Named Entity Recognition)和Pos(Part-of-S 阅读全文
posted @ 2023-09-03 12:33 扫地升 阅读(604) 评论(0) 推荐(0) 编辑
中文句子关系推断
摘要:本文通过ChnSentiCorp数据集介绍了中文句子关系推断任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。 一.任务简介和数据集 通过模型来判断2个句子是否连续,使用ChnSentiCorp数据集,不 阅读全文
posted @ 2023-09-01 22:16 扫地升 阅读(137) 评论(0) 推荐(0) 编辑
中文完形填空
摘要:本文通过ChnSentiCorp数据集介绍了完型填空任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。 一.完形填空 完形填空应该大家都比较熟悉,就是把句子中的词挖掉,根据上下文推测挖掉的词是什么。 二. 阅读全文
posted @ 2023-09-01 22:15 扫地升 阅读(86) 评论(0) 推荐(0) 编辑
中文情感分类
摘要:本文通过ChnSentiCorp数据集介绍了文本分类任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。 一.任务和数据集介绍 1.任务 中文情感分类本质还是一个文本分类问题。 2.数据集 本文使用ChnS 阅读全文
posted @ 2023-08-29 21:38 扫地升 阅读(593) 评论(0) 推荐(0) 编辑
使用训练工具
摘要:HuggingFace上提供了很多已经训练好的模型库,如果想针对特定数据集优化,那么就需要二次训练模型,并且HuggingFace也提供了训练工具。 一.准备数据集 1.加载编码工具 加载hfl/rbt3编码工具如下所示: def load_encode(): # 1.加载编码工具 # 第6章/加载 阅读全文
posted @ 2023-08-26 08:03 扫地升 阅读(741) 评论(2) 推荐(1) 编辑
使用管道工具
摘要:HuggingFace本身就是一个模型库,包括了很多经典的模型,比如文本分类、阅读理解、完形填空、文本生成、命名实体识别、文本摘要、翻译等,这些模型即使不进行任何训练也能直接得出比较好的预测结果。pipeline是HuggingFace提供的一个非常实用的工具,但是封装程度太高,需要看源码才能理解其 阅读全文
posted @ 2023-08-26 08:01 扫地升 阅读(70) 评论(0) 推荐(0) 编辑
使用评价指标工具
摘要:评估一个训练好的模型需要评估指标,比如正确率、查准率、查全率、F1值等。当然不同的任务类型有着不同的评估指标,而HuggingFace提供了统一的评价指标工具。 1.列出可用的评价指标 通过list_metrics()函数列出可用的评价指标: def list_metric_test(): # 第4 阅读全文
posted @ 2023-06-27 23:14 扫地升 阅读(94) 评论(0) 推荐(0) 编辑
使用数据集工具
摘要:一.数据集工具介绍 HuggingFace通过API提供了统一的数据集处理工具,它提供的数据集如下所示: 该界面左侧可以根据不同的任务类型、类库、语言、License等来筛选数据集,右侧为具体的数据集列表,其中有经典的glue、super_glue数据集,问答数据集squad,情感分类数据集imdb 阅读全文
posted @ 2023-06-27 21:49 扫地升 阅读(154) 评论(0) 推荐(0) 编辑
使用编码工具
摘要:本文主要介绍了对句子编码的过程,以及如何使用PyTorch中自带的编码工具,包括基本编码encode()、增强编码encode_plus()和批量编码batch_encode_plus()。 一.对一个句子编码例子 假设想在要对句子'the quick brown fox jumps over a 阅读全文
posted @ 2023-06-25 15:19 扫地升 阅读(217) 评论(0) 推荐(0) 编辑
什么是HuggingFace
摘要:一.HuggingFace简介 1.HuggingFace是什么 可以理解为对于AI开发者的GitHub,提供了模型、数据集(文本|图像|音频|视频)、类库(比如transformers|peft|accelerate)、教程等。 2.为什么需要HuggingFace 主要是HuggingFace把 阅读全文
posted @ 2023-06-25 15:18 扫地升 阅读(2559) 评论(0) 推荐(0) 编辑

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

点击右上角即可分享
微信分享提示