上一页 1 2 3 4 5 6 7 ··· 16 下一页
摘要: **训练一个NLU模型** 本文将使用trainer 训练一个牛客网讨论帖文本分类模型。详细过程如下: #### 构建数据集 数据集下载链接: [train data](https://github.com/chadqiu/newcoder-crawler/blob/main/train.csv) 阅读全文
posted @ 2023-07-30 18:31 张Zong在修行 阅读(350) 评论(0) 推荐(0) 编辑
摘要: **报错信息** Python加载xlsx文件时,遇到: ```python xlrd.biffh.XLRDError Excel xlsx file; not supported ``` **错误原因** 报错翻译过来是: ```python xlrd.biffh.xlrd错误:Excel xls 阅读全文
posted @ 2023-07-30 16:14 张Zong在修行 阅读(538) 评论(0) 推荐(0) 编辑
摘要: 在Hugging Face中,`config.json`文件是用于配置预训练模型参数的文件。这个文件通常包含了模型的架构、超参数和其他模型配置信息。它是一个JSON格式的文件,可以在加载模型时用来初始化模型的配置。 在加载模型时,`from_pretrained()`方法通常会自动加载相应的`con 阅读全文
posted @ 2023-07-30 12:22 张Zong在修行 阅读(3027) 评论(1) 推荐(0) 编辑
摘要: 在 Hugging Face 中,有多种不同的 tokenizer 实现可供选择,每种实现都有其独特的优缺点和用途。 1. `BertTokenizer`:适用于 BERT 模型,支持 WordPiece 分词和 Byte-Pair Encoding(BPE)分词算法。它还支持对输入序列进行截断和填 阅读全文
posted @ 2023-07-30 11:49 张Zong在修行 阅读(1601) 评论(0) 推荐(0) 编辑
摘要: 本实验将实现一款爬虫工具,微博热搜采集发送器,通过 requests 库加 bs4 库完成对热搜的爬取,之后通过 smtplib 库与 email 库实现邮件信息的传递。最后还为大家介绍了一个爬虫技巧,pandas 一行代码抓取表格数据。 #### 知识点 - 微博热搜爬取 - Python 邮件发 阅读全文
posted @ 2023-07-30 07:45 张Zong在修行 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 我们使用huggingface的`from_pretrained()`函数加载模型和`tokenizer`,那么加载这些需要什么文件? ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230729184714304-1663 阅读全文
posted @ 2023-07-29 18:47 张Zong在修行 阅读(3177) 评论(0) 推荐(0) 编辑
摘要: **目标:** 在NLP领域,基于公开语料的预训练模型,在专业领域迁移时,会遇到专业领域词汇不在词汇表的问题,本文介绍如何添加专有名词到预训练模型。 NLP的处理流程: 1. 对输入的句子进行分词,得到词语及下标 2. 通过embedding层获得词语对应的embedding 3. embeddin 阅读全文
posted @ 2023-07-29 18:29 张Zong在修行 阅读(2345) 评论(0) 推荐(0) 编辑
摘要: 概念:一个包含交互的区域,用于收集用户提供的数据。 **1.** **基本结构** 简单梳理: | **标签名** | **标签语义** | **常用属性** | **单** **/** 双标签 | | | | | | | `form` | 表单 | `action` :用于指定表单的提交地址(需要 阅读全文
posted @ 2023-07-29 11:25 张Zong在修行 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 本实验介绍了一个全新的爬虫思路,**通过移动端 Web 站点爬取数据**,方法是借助谷歌浏览器的开发者工具,模拟出移动设备进行网站访问,然后去获取移动端网站的数据接口。后半部分通过爬取 4399 排行榜与什么值得买白菜商品两个案例,强化对于移动端 Web 站点爬取技术的学习。 #### 知识点 - 阅读全文
posted @ 2023-07-29 09:41 张Zong在修行 阅读(52) 评论(0) 推荐(0) 编辑
摘要: safetensors是谷歌开发的一种TensorFlow Lite模型文件格式,用于在移动设备上运行模型。`.safetensors` 文件是用 numpy 保存的,这意味着它们只包含张量数据,没有任何代码,加载 .safetensors 文件更安全和快速。如果你想在手机上打开本地后缀为safet 阅读全文
posted @ 2023-07-28 17:04 张Zong在修行 阅读(3229) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 16 下一页