随笔 - 128  文章 - 0  评论 - 75  阅读 - 11万
08 2023 档案
中文情感分类
摘要:本文通过ChnSentiCorp数据集介绍了文本分类任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。 一.任务和数据集介绍 1.任务 中文情感分类本质还是一个文本分类问题。 2.数据集 本文使用ChnS 阅读全文
posted @ 2023-08-29 21:38 扫地升 阅读(593) 评论(0) 推荐(0) 编辑
使用训练工具
摘要:HuggingFace上提供了很多已经训练好的模型库,如果想针对特定数据集优化,那么就需要二次训练模型,并且HuggingFace也提供了训练工具。 一.准备数据集 1.加载编码工具 加载hfl/rbt3编码工具如下所示: def load_encode(): # 1.加载编码工具 # 第6章/加载 阅读全文
posted @ 2023-08-26 08:03 扫地升 阅读(741) 评论(2) 推荐(1) 编辑
使用管道工具
摘要:HuggingFace本身就是一个模型库,包括了很多经典的模型,比如文本分类、阅读理解、完形填空、文本生成、命名实体识别、文本摘要、翻译等,这些模型即使不进行任何训练也能直接得出比较好的预测结果。pipeline是HuggingFace提供的一个非常实用的工具,但是封装程度太高,需要看源码才能理解其 阅读全文
posted @ 2023-08-26 08:01 扫地升 阅读(70) 评论(0) 推荐(0) 编辑

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

点击右上角即可分享
微信分享提示