摘要: 我们使用huggingface的`from_pretrained()`函数加载模型和`tokenizer`,那么加载这些需要什么文件? ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230729184714304-1663 阅读全文
posted @ 2023-07-29 18:47 张Zong在修行 阅读(3178) 评论(0) 推荐(0) 编辑
摘要: **目标:** 在NLP领域,基于公开语料的预训练模型,在专业领域迁移时,会遇到专业领域词汇不在词汇表的问题,本文介绍如何添加专有名词到预训练模型。 NLP的处理流程: 1. 对输入的句子进行分词,得到词语及下标 2. 通过embedding层获得词语对应的embedding 3. embeddin 阅读全文
posted @ 2023-07-29 18:29 张Zong在修行 阅读(2348) 评论(0) 推荐(0) 编辑
摘要: 概念:一个包含交互的区域,用于收集用户提供的数据。 **1.** **基本结构** 简单梳理: | **标签名** | **标签语义** | **常用属性** | **单** **/** 双标签 | | | | | | | `form` | 表单 | `action` :用于指定表单的提交地址(需要 阅读全文
posted @ 2023-07-29 11:25 张Zong在修行 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 本实验介绍了一个全新的爬虫思路,**通过移动端 Web 站点爬取数据**,方法是借助谷歌浏览器的开发者工具,模拟出移动设备进行网站访问,然后去获取移动端网站的数据接口。后半部分通过爬取 4399 排行榜与什么值得买白菜商品两个案例,强化对于移动端 Web 站点爬取技术的学习。 #### 知识点 - 阅读全文
posted @ 2023-07-29 09:41 张Zong在修行 阅读(52) 评论(0) 推荐(0) 编辑