2023 年 7月随笔档案 - 张Zong在修行

爬虫 | 蓝桥社区热搜点赞器

摘要：本实验首先为大家介绍了爬虫必备的知识 cookie，掌握 cookie 的使用场景之后，再结合爬虫思想实现了两款实用工具，自动点赞器与自动签到器，为大家扩展了爬虫编写工具的新思路。本节实验的最后会向大家简单介绍爬虫未来的学习方向。 #### 知识点 - cookie 与爬虫 - 实验楼社区点赞器 - 阅读全文

posted @ 2023-07-31 12:02 张Zong在修行阅读(44) 评论(0) 推荐(0) 编辑

HuggingFace | 基础组件之Pipeline

摘要：### 什么是Pipeline + **Pipeline** + 将数据预处理、模型调用、结果后处理三部分组装成的流水线 + 使我们能够直接输入文本便获得最终的答案 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-2023073 阅读全文

posted @ 2023-07-31 11:46 张Zong在修行阅读(744) 评论(0) 推荐(1) 编辑

Python报错 | ImportError: To be able to use evaluate-metric/seqeval, you need to install the following dependencies['seqeval'] using 'pip install seqeval' for instance'

摘要：**报错信息** 使用`metric = evaluate.load("seqeval")`的时候，报如下错误： ```python ImportError: To be able to use evaluate-metric/seqeval, you need to install the fol 阅读全文

posted @ 2023-07-30 22:06 张Zong在修行阅读(540) 评论(0) 推荐(0) 编辑

HuggingFace | 使用Roberta训练一个牛客网讨论贴文本分类模型

摘要：**训练一个NLU模型** 本文将使用trainer 训练一个牛客网讨论帖文本分类模型。详细过程如下： #### 构建数据集数据集下载链接： [train data](https://github.com/chadqiu/newcoder-crawler/blob/main/train.csv) 阅读全文

posted @ 2023-07-30 18:31 张Zong在修行阅读(542) 评论(0) 推荐(0) 编辑

Python报错 | xlrd.biffh.XLRDError Excel xlsx file; not supported

摘要：**报错信息** Python加载xlsx文件时，遇到： ```python xlrd.biffh.XLRDError Excel xlsx file; not supported ``` **错误原因** 报错翻译过来是： ```python xlrd.biffh.xlrd错误：Excel xls 阅读全文

posted @ 2023-07-30 16:14 张Zong在修行阅读(939) 评论(0) 推荐(0) 编辑

HuggingFace | config.json参数讲解

摘要：在Hugging Face中，`config.json`文件是用于配置预训练模型参数的文件。这个文件通常包含了模型的架构、超参数和其他模型配置信息。它是一个JSON格式的文件，可以在加载模型时用来初始化模型的配置。在加载模型时，`from_pretrained()`方法通常会自动加载相应的`con 阅读全文

posted @ 2023-07-30 12:22 张Zong在修行阅读(5057) 评论(1) 推荐(0) 编辑

HuggingFace | 各种tokenizer有啥区别

摘要：在 Hugging Face 中，有多种不同的 tokenizer 实现可供选择，每种实现都有其独特的优缺点和用途。 1. `BertTokenizer`：适用于 BERT 模型，支持 WordPiece 分词和 Byte-Pair Encoding（BPE）分词算法。它还支持对输入序列进行截断和填阅读全文

posted @ 2023-07-30 11:49 张Zong在修行阅读(2805) 评论(0) 推荐(1) 编辑

爬虫 | 微博热搜采集发送器

摘要：本实验将实现一款爬虫工具，微博热搜采集发送器，通过 requests 库加 bs4 库完成对热搜的爬取，之后通过 smtplib 库与 email 库实现邮件信息的传递。最后还为大家介绍了一个爬虫技巧，pandas 一行代码抓取表格数据。 #### 知识点 - 微博热搜爬取 - Python 邮件发阅读全文

posted @ 2023-07-30 07:45 张Zong在修行阅读(231) 评论(0) 推荐(0) 编辑

HuggingFace | HuggingFace中from_pretrained函数的加载

摘要：我们使用huggingface的`from_pretrained()`函数加载模型和`tokenizer`，那么加载这些需要什么文件？ ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230729184714304-1663 阅读全文

posted @ 2023-07-29 18:47 张Zong在修行阅读(4748) 评论(0) 推荐(0) 编辑

Huggingface | 修改模型的embedding

摘要：**目标：** 在NLP领域，基于公开语料的预训练模型，在专业领域迁移时，会遇到专业领域词汇不在词汇表的问题，本文介绍如何添加专有名词到预训练模型。 NLP的处理流程： 1. 对输入的句子进行分词，得到词语及下标 2. 通过embedding层获得词语对应的embedding 3. embeddin 阅读全文

posted @ 2023-07-29 18:29 张Zong在修行阅读(3422) 评论(1) 推荐(0) 编辑

HTML | HTML表单

摘要：概念：一个包含交互的区域，用于收集用户提供的数据。 **1.** **基本结构** 简单梳理： | **标签名** | **标签语义** | **常用属性** | **单** **/** 双标签 | | | | | | | `form` | 表单 | `action` ：用于指定表单的提交地址（需要阅读全文

posted @ 2023-07-29 11:25 张Zong在修行阅读(32) 评论(0) 推荐(0) 编辑

爬虫 | 白菜价商品数据抓取

摘要：本实验介绍了一个全新的爬虫思路，**通过移动端 Web 站点爬取数据**，方法是借助谷歌浏览器的开发者工具，模拟出移动设备进行网站访问，然后去获取移动端网站的数据接口。后半部分通过爬取 4399 排行榜与什么值得买白菜商品两个案例，强化对于移动端 Web 站点爬取技术的学习。 #### 知识点 - 阅读全文

posted @ 2023-07-29 09:41 张Zong在修行阅读(96) 评论(0) 推荐(0) 编辑

NLP | safetensors是什么文件

摘要：safetensors是谷歌开发的一种TensorFlow Lite模型文件格式，用于在移动设备上运行模型。`.safetensors` 文件是用 numpy 保存的，这意味着它们只包含张量数据，没有任何代码，加载 .safetensors 文件更安全和快速。如果你想在手机上打开本地后缀为safet 阅读全文

posted @ 2023-07-28 17:04 张Zong在修行阅读(5089) 评论(0) 推荐(0) 编辑

Pytorch | Pytorch格式 .pt .pth .bin .onnx 详解

摘要：Pytorch是深度学习领域中非常流行的框架之一，支持的模型保存格式包括.pt和.pth .bin .onnx。这几种格式的文件都可以保存Pytorch训练出的模型，但是它们的区别是什么呢？ ### 模型的保存与加载到底在做什么？我们在使用pytorch构建模型并且训练完成后，下一步要做的就是把这阅读全文

posted @ 2023-07-28 16:35 张Zong在修行阅读(4614) 评论(0) 推荐(0) 编辑

爬虫 | 美食数据抓取

摘要：本实验将为大家介绍接口爬取的相关知识，通过实验楼课程列表页与 IT 之家动态页，讲解如何通过开发者工具快速判断数据来源。实验过程将通过爬取美食网、实验楼社区两个案例，说明如何针对接口编写爬虫。 #### 知识点 - 接口（API）爬取知识 - 美食案例实操 - 实验楼社区案例实操 ### 接口（A 阅读全文

posted @ 2023-07-28 11:46 张Zong在修行阅读(161) 评论(0) 推荐(0) 编辑

爬虫 | 产品经理书单抓取

摘要：本实验将讲解 Beautiful Soup 4 库解析 HTML 的常见用法，它的中文名字是「美丽汤」。在使用 pip 安装该库时的名字是 beautifulsoup4 ，在使用该库时包的名字是 bs4 ，要注意它们的区别。 Beautiful Soup 4 专注于解析 HTML / XML 源码并阅读全文

posted @ 2023-07-27 17:34 张Zong在修行阅读(61) 评论(0) 推荐(0) 编辑

机器翻译 | Improving Neural Machine Translation Robustness via Data Augmentation: Beyond Back Translation论文总结

摘要：论文地址：https://arxiv.org/abs/1910.03009 ### 动机神经机器翻译(NMT)模型在翻译**干净文本**时已被证明是强大的，但它们**对输入中的噪声非常敏感**。改进NMT模型的鲁棒性可以看作是对噪声的“域”适应的一种形式。最先进的方法严重依赖于大量的反向翻译数据阅读全文

posted @ 2023-07-26 09:56 张Zong在修行阅读(105) 评论(0) 推荐(0) 编辑

工具 | Pycharm中调试服务器代码并且运行

摘要：首先在pycharm中创建一个python的空项目`project`，删除main.py。 > #### 1.配置远程服务器信息打开pycharm，选择Tools —> Deployment —> Configuration，点右上角的“+”添加服务器信息，服务器类型选择SFTP，name自己习惯阅读全文

posted @ 2023-07-25 10:54 张Zong在修行阅读(2694) 评论(0) 推荐(0) 编辑

工具 | Pycharm中自己的项目代码不执行

摘要：**我的项目中使用了thumt的包，但是放在了自己的项目代码中，而且进行修改了，但是它不执行项目中修改的** 如果对thumt包进行了修改，但是在项目中并没有生效，可能是因为您在导入thumt包时使用了相对路径或者系统默认的搜索路径，而不是使用您修改后的thumt包。为了确保使用您修改后的thum 阅读全文

posted @ 2023-07-25 10:44 张Zong在修行阅读(150) 评论(0) 推荐(0) 编辑

Linux | export 命令

摘要：Linux export 命令是一个 Bash 命令，用于设置或显示环境变量。在 shell 中执行程序时，shell 会提供一组环境变量，如 PATH、PYTHONPATH 等。export 可新增，修改或删除环境变量，供后续执行的程序使用。==`export` 的效力仅限于该次登陆操作==。阅读全文

posted @ 2023-07-24 19:27 张Zong在修行阅读(7837) 评论(0) 推荐(0) 编辑

爬虫 | Python爬虫应该学习什么知识点？

摘要：### 什么是爬虫如果说把互联网比喻成蜘蛛网，那么爬虫就是在这张网上的蜘蛛，它可以在上面爬来爬去。在互联网中，爬虫就是机器人，你应该对百度和 Google 很熟悉吧，为什么我们可以很快的从它们的搜索引擎中获取到资料呢？原因就是它们都有自己的爬虫，在整个互联网上，24小时不间断的爬取那些愿意让它们阅读全文

posted @ 2023-07-24 15:23 张Zong在修行阅读(115) 评论(0) 推荐(0) 编辑

Python | setup.py详解

摘要：setup.py是Python中用于构建、打包和发布第三方库的脚本文件。它通常位于Python库的根目录下，并包含了一些元数据和配置信息，用于指定库的名称、版本、作者、依赖项等。 setup.py的内容通常包括以下部分： 1. 导入setuptools模块或distutils模块。setuptool 阅读全文

posted @ 2023-07-23 19:35 张Zong在修行阅读(10786) 评论(0) 推荐(0) 编辑

HTML | HTML列表

摘要：### **1.** **有序列表** 概念：有顺序或侧重顺序的列表。 ```html 要把大象放冰箱总共分几步把冰箱门打开把大象放进去把冰箱门关上 ``` ### **2.** **无序列表** 概念：无顺序或不侧重顺序的列表。 ```html 我想去的几个城市成都上海西安武汉 `` 阅读全文

posted @ 2023-07-23 15:58 张Zong在修行阅读(17) 评论(0) 推荐(0) 编辑

HTML | HTML超链接

摘要：主要作用：从当前页面进行跳转。可以实现：①跳转到指定页面、②跳转到指定文件（也可触发下载）、③跳转到锚点位置、④唤起指定应用。 | **标签名** | 标签语义 | **常用属性** | **单** **/** **双标签** | | : : | : : | | : : | | `a` | 超链阅读全文

posted @ 2023-07-23 15:37 张Zong在修行阅读(136) 评论(0) 推荐(0) 编辑

HTML | HTML实体

摘要：在 `HTML` 中我们可以用一种**特殊的形式**的内容，来表示某个**符号**，这种特殊形式的内容，就是 `HTML` 实体。比如小于号 ` **字符实体**由三部分组成：一个 `&` 和一个实体名称（或者一个 `#` 和一个实体编号），最后加上一个分号` ;` 。常见字符实体总结： ![ 阅读全文

posted @ 2023-07-23 15:08 张Zong在修行阅读(36) 评论(0) 推荐(0) 编辑

JavaScript | JavaScript数据类型

摘要：数据类型决定了一个数据的特征，比如：`123`和`”123”`，直观上看这两个数据都是123，但实际上前者是一个数字，而后者是一个字符串。对于不同的数据类型我们在进行操作时会有很大的不同。 **JavaScript中一共有5种基本数据类型：** + 字符串型（String） + 数值型（Number 阅读全文

posted @ 2023-07-23 12:14 张Zong在修行阅读(19) 评论(0) 推荐(0) 编辑

JavaScript | JavaScript入门知识

摘要：### JavaScript编写位置 + 我们目前学习的JS全都是客户端的JS，也就是说全都是需要在浏览器中运行的，所以我们我们的JS代码全都需要在网页中编写。 + 我们的JS代码需要编写到` 点我一下你也点我一下你也点我一下 ``` ### Hello World + 创建一个html文件。阅读全文

posted @ 2023-07-23 10:37 张Zong在修行阅读(19) 评论(0) 推荐(0) 编辑

Python报错 | AttributeError： 'NoneType' object has no attribute 'group'

摘要：**报错信息** 使用Python正则匹配的时候，报如下错误： ```python AttributeError： 'NoneType' object has no attribute 'group' ``` **错误原因** 报错翻译过来是： ```python 属性错误：“NoneType”对象阅读全文

posted @ 2023-07-23 09:44 张Zong在修行阅读(4312) 评论(0) 推荐(0) 编辑

爬虫 | 小米应用商店 APP 排行榜爬取

摘要：本实验将从 HTTP 协议开始为你讲述爬虫的底层原理，之后将 HTTP 协议与 requests 库进行知识关联，为你解释 requests 库是如何实现 HTTP 协议中的相关内容。在实验后半节将为大家讲解 re 模块与正则表达式的泛应用技巧，该技巧可以极大地提高正则表达式编写速度与 Python 阅读全文

posted @ 2023-07-23 09:25 张Zong在修行阅读(622) 评论(0) 推荐(0) 编辑

爬虫 | 童年回忆宝可梦数据抓取

摘要：本文将带你认识一个爬取重点解析库 `lxml` ，该库属于爬虫“必考”知识点之一，介绍 `lxml` 的同时会给你介绍两种解析语法，一种深度结合前端知识进行操作，一种语法简洁，处理速度快。以上两部分内容分别为 `cssselect` 与 `XPath` 。 #### 知识点 - lxml 库与 cs 阅读全文

posted @ 2023-07-22 12:36 张Zong在修行阅读(145) 评论(0) 推荐(0) 编辑

爬虫 | 解析蓝桥云课课程数据

摘要：爬取蓝桥云课页面的课程名字和课程链接。爬取内容如下图所示： ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230722093853394-700752689.png) 我们先要打开开发者工具来定位代码，理清我们需要的数阅读全文

posted @ 2023-07-22 09:39 张Zong在修行阅读(134) 评论(0) 推荐(0) 编辑

JavaScript | JavaScript介绍

摘要：### JavaScript起源 + JavaScript诞生于1995年，它的出现主要是用于处理网页中的前端验证。 + 所的前端验证，就是指检查用户输入的内容是否符合一定的规则。 + 比如：用户名的长度，密码的长度，邮箱的格式等。 ![](https://img2023.cnblogs.com/b 阅读全文

posted @ 2023-07-21 13:27 张Zong在修行阅读(69) 评论(0) 推荐(0) 编辑

HTML | 表格

摘要：### 基本结构 1. 一个完整的表格由：**表格标题、表格头部、表格主体、表格脚注**，四部分组成。 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230721115019592-824763619.png) 2. 表格阅读全文

posted @ 2023-07-21 11:52 张Zong在修行阅读(56) 评论(0) 推荐(0) 编辑

HTML | 图片标签

摘要：### 基本使用 | 标签名 | 标签语义 | 常用属性 | 单 / 双标签 | | : : | : : | | : : | | `img` | 图片 | `src` ：图片路径（又称：图片地址）—— 图片的具体位置`alt` ：图片描述`width` ：图片宽度，单位是像素，例如：`200px` 阅读全文

posted @ 2023-07-21 11:46 张Zong在修行阅读(1082) 评论(0) 推荐(0) 编辑

HTTP | 服务器防盗链

摘要：### 什么是防盗链 **防盗链**其实就是采用服务器端编程，通过url过滤技术实现的防止盗链的软件。比如`file.abc.com/test.rar` 这个下载地址，如果没有装防盗链，别人就能轻而易举的在他的网站上引用这个地址。如果对`file.abc.com` 这个站的服务器端编程，比如通过` 阅读全文

posted @ 2023-07-21 09:39 张Zong在修行阅读(183) 评论(0) 推荐(0) 编辑

HTML | 文本标签

摘要：### 常用文本标签 1. 用于包裹：词汇、短语等。 2. 通常写在排版标签里面。 3. 排版标签更宏观（大段的文字），文本标签更微观（词汇、短语）。 4. 文本标签通常都是行内元素。 | 标签名 | 标签语义 | 单 / 双标签 | | : : | : : | : : | | em | 要着重阅阅读全文

posted @ 2023-07-21 08:43 张Zong在修行阅读(76) 评论(0) 推荐(0) 编辑

HTML | HTML简介

摘要：### 什么是 HTML **全称：**HyperText Markup Language（超文本标记语言），专门用来设计和编辑网页。HTML 不是编程语言，没有逻辑处理能力，没有计算能力，不能动态地生成内容，而只能静态地展示网页信息。 **超文本：**暂且简单理解为 “超级的文本”，和普通文本比，阅读全文

posted @ 2023-07-19 15:17 张Zong在修行阅读(129) 评论(0) 推荐(0) 编辑

爬虫 | Beautiful Soup 初识

摘要：本博客将学习用 Beautiful Soup 库来实现数据抓取。将会通过爬取世界大学校园排名的数据来讲解 Beautiful Soup 库的基础知识。它包括如何用 Beautiful Soup 库的解析器去解析页面内容、如何遍历和搜索标签树、如何提取出关键的数据并保存到列表或者字典里。 ### Be 阅读全文

posted @ 2023-07-17 22:16 张Zong在修行阅读(112) 评论(0) 推荐(0) 编辑

Python | requests库

摘要：## 一、基本概念 ### 1、简介 requests 模块是 python 基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习阅读全文

posted @ 2023-07-17 09:13 张Zong在修行阅读(112) 评论(0) 推荐(0) 编辑

Python报错 | 关于requests.exceptions.SSLError解决方案

摘要：学习爬虫遇到的错误。 **报错信息：** ```python requests.exceptions.SSLError: HTTPSConnectionPool(host=’*****’, port=443): Max retries exceeded with url: / (Caused by 阅读全文

posted @ 2023-07-16 22:47 张Zong在修行阅读(1599) 评论(0) 推荐(0) 编辑

爬虫 | <Response [418]>原因

摘要：在我们调用`requests.get(网址)`访问网页时，输出为``。是什么原因呢？如下运行代码： ```python # 导入访问网页要用的库 import requests # 申明一个变量存储网址 # 网址是一个字符串变量，注意网址前后都必须有引号 url = 'https://movie. 阅读全文

posted @ 2023-07-16 22:08 张Zong在修行阅读(3048) 评论(0) 推荐(0) 编辑

工具 | pip报错 ValueError: check_hostname requires server_hostname解决方法

摘要：使用python的pip安装第三方包的时候会出现这个问题。 **报错信息：** ```python ValueError: check_hostname requires server_hostname ``` **解决方法：** 你**可能打开了代理，你可以关闭代理试一下**。如果不行，重启电阅读全文

posted @ 2023-07-16 21:53 张Zong在修行阅读(295) 评论(0) 推荐(0) 编辑

MarkDown | 分段函数写法

摘要：**Markdown 分段函数写法** ```markdown $$ 函数名=\begin{cases} 公式1 & 条件1 \\ 公式2 & 条件2 \\ 公式3 & 条件3 \end{cases}$$ ``` 其中，**`&`表示对齐，`\\`用来表示换行**。结果如下： ![](https: 阅读全文

posted @ 2023-07-16 19:04 张Zong在修行阅读(486) 评论(0) 推荐(0) 编辑

HTTP | 响应状态码

摘要：### 响应状态码共分为5种类型 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230716182544755-660316834.png) ### 状态码大全 #### 1、1XX（临时响应） `1xx`（临时响应）：表阅读全文

posted @ 2023-07-16 18:25 张Zong在修行阅读(43) 评论(0) 推荐(0) 编辑

NLP | 神经网络的激活函数详解

摘要：如果你刚刚开始学习神经网络，激活函数的原理一开始可能很难理解。但是如果你想开发强大的神经网络，理解它们是很重要的。 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230716160628529-459815546.png) 阅读全文

posted @ 2023-07-16 16:08 张Zong在修行阅读(335) 评论(0) 推荐(0) 编辑

机器翻译 | Improving Neural Machine Translation Robustness via Data Augmentation: Beyond Back Translation论文翻译

摘要：## 摘要 **神经机器翻译(NMT)模型在翻译干净文本时已被证明是强大的，但它们对输入中的噪声非常敏感**。改进NMT模型的鲁棒性可以看作是对噪声的“域”适应的一种形式。**最近创建的基于噪声文本的机器翻译任务语料库为一些语言对提供了噪声清洁的并行数据，但这些数据在大小和多样性方面非常有限**。最阅读全文

posted @ 2023-07-16 10:55 张Zong在修行阅读(135) 评论(0) 推荐(0) 编辑

机器翻译｜EMNLP 2019大规模利用单语数据提升神经机器翻译

摘要：目前，目标语言端的无标注单语数据已被广泛应用于在机器翻译任务中。然而，目标语言端的无标注数据一旦使用不当，反而会给模型结果带来负面影响。为了有效利用大规模源语言端和目标语言端的单语数据，微软亚洲研究院在 EMNLP 2019 上发表的论文中，提出一种简单的语料数据使用流程，只需要四个步骤就能极大地提阅读全文

posted @ 2023-07-15 18:32 张Zong在修行阅读(78) 评论(0) 推荐(0) 编辑

NLP | 数据增强总览

摘要：深度学习视觉领域的增强方法可以很大程度上提高模型的表现，并减少数据的依赖，而NLP上做数据增强不像在图像上那么方便，但还是有一些方法的。与计算机视觉中使用图像进行数据增强不同，NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作，如将图像旋转或将其转换为灰度，并不会改变其语义。语义不变变换阅读全文

posted @ 2023-07-15 08:45 张Zong在修行阅读(78) 评论(0) 推荐(0) 编辑

机器翻译 | Improving Neural Machine Translation Models with Monolingual Data论文翻译

摘要：## 题目基于单语数据的神经机器翻译模型改进 ## 摘要神经机器翻译(NMT)在仅使用并行数据进行训练的情况下，在几种语言对上取得了最先进的表现。目标侧单语数据在提高基于短语的统计机器翻译的流畅性方面起着重要作用，我们**研究了单语数据在NMT中的应用**。与之前将NMT模型与单独训练的语言模型阅读全文

posted @ 2023-07-14 20:26 张Zong在修行阅读(144) 评论(0) 推荐(0) 编辑

机器翻译 | Understanding Back-Translation at Scale论文翻译

摘要：## 题目大规模理解反向翻译 ## 摘要在并行训练语料库中增加目标语言句子的反译，是提高单语数据神经机器翻译的有效方法。这项工作拓宽了对反翻译的理解，并研究了一些生成合成源句的方法。我们发现，除了资源贫乏之外，通过采样或带噪波束输出获得的反向平移是最有效的。我们的分析表明，采样或有噪声的合成数据阅读全文

posted @ 2023-07-14 16:22 张Zong在修行阅读(303) 评论(0) 推荐(0) 编辑

Shell | Transformer-xl代码的shell代码实现

摘要：**实现网址：**https://github.com/kimiyoung/transformer-xl/tree/master/pytorch ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230713165109801 阅读全文

posted @ 2023-07-13 16:51 张Zong在修行阅读(76) 评论(0) 推荐(0) 编辑

Shell | 变量

摘要：### 系统预定义变量常用系统变量`$HOME`、`$PWD`、`$SHELL`、`$USER` 等 **例子：** （1）查看系统变量的值 ```sh $ echo $HOME /home/zlq ``` （2）显示当前 Shell 中所有变量：`set` ```sh $ set BASH=/b 阅读全文

posted @ 2023-07-13 13:28 张Zong在修行阅读(15) 评论(0) 推荐(0) 编辑

Shell | 条件判断

摘要：**基本语法：** （1）test condition （2）[ condition ]（**注意 condition 前后要有空格**）注意：条件非空即为 true，[ atguigu ]返回 true，[ ] 返回 false。 **常用判断条件：** （1）两个整数之间比较 ```sh -e 阅读全文

posted @ 2023-07-13 12:21 张Zong在修行阅读(69) 评论(0) 推荐(0) 编辑

Shell | 正则表达式

摘要：正则表达式使用单个字符串来描述、匹配一系列符合某个语法规则的字符串。在很多文本编辑器里，**正则表达式通常被用来检索、替换那些符合某个模式的文本**。在 Linux 中，`grep`，`sed`，`awk` 等文本处理工具都支持通过正则表达式进行模式匹配。 ### 常规匹配一串不包含特殊字符的正则阅读全文

posted @ 2023-07-13 12:09 张Zong在修行阅读(28) 评论(0) 推荐(0) 编辑

Shell | 函数语法

摘要：### 系统函数 #### 1、basename **基本语法：** `basename [string / pathname] [suffix] `（功能描述：`basename` 命令会删掉所有的前缀包括最后一个（‘/’）字符，然后将字符串显示出来。 `basename` 可以理解为取路径里的文阅读全文

posted @ 2023-07-13 11:49 张Zong在修行阅读(15) 评论(0) 推荐(0) 编辑

Shell | 循环语句

摘要：### for循环 **基本语法 1:** ```sh for (( 初始值;循环控制条件;变量变化 )) do 程序 done ``` **例子：从 1 加到 100** ```sh $ touch for1.sh $ vim for1.sh #!/bin/bash sum=0 for((i=0; 阅读全文

posted @ 2023-07-13 10:44 张Zong在修行阅读(18) 评论(0) 推荐(0) 编辑

Shell | 判断语句

摘要：### if判断 **基本语法：** （1）单分支 ```sh if [ 条件判断式 ];then 程序 fi ``` 或者 ```sh if [ 条件判断式 ] then 程序 fi ``` （2）多分支 ```sh if [ 条件判断式 ] then 程序 elif [ 条件判断式 ] then 阅读全文

posted @ 2023-07-13 10:29 张Zong在修行阅读(114) 评论(0) 推荐(0) 编辑

Shell | 特殊变量

摘要：### `$n` **基本语法:** `$n` （功能描述：n 为数字，`$0` 代表该脚本名称，`$1-$9` 代表第一到第九个参数，十以上的参数，十以上的参数需要用大括号包含，如`${10}`） **例如：** ```sh $ touch parameter.sh $ vim parameter 阅读全文

posted @ 2023-07-13 10:03 张Zong在修行阅读(14) 评论(0) 推荐(0) 编辑

机器翻译 | Prompting Large Language Model for Machine Translation: A Case Study论文翻译

摘要：## 题目：机器翻译的提示大语言模型:一个案例研究 ## 摘要对提示的研究表明，在很少甚至没有监督训练的情况下，提示在许多任务中表现出色。然而，文献中对机器翻译的提示还没有充分的研究。**本文对翻译提示策略进行了系统的研究，考察了提示模板和示例选择的各种因素，填补了这一空白**。我们进一步==探阅读全文

posted @ 2023-07-12 18:59 张Zong在修行阅读(480) 评论(0) 推荐(0) 编辑

Linux | 如何复制文件夹到另一个文件夹

摘要：linux系统使用cp命令即可将一个文件夹里面的文件复制到另外一个文件夹里面。这个命令相当于dos下面的copy命令，具体用法是：`cp -r 源文件目的文件`，其中参数`r`是指连同源文件中的子目录一同拷贝。在linux系统中复制文件我们可以使用cp或copy命令了，我们要复制文件或目录都可以阅读全文

posted @ 2023-07-12 11:58 张Zong在修行阅读(26647) 评论(0) 推荐(0) 编辑

NLP | mC4数据集

摘要：MC4 是C4 的子集，MC4 是从公共 Common Crawl 存储库中提取的约 750GB 英语文本的集合。Common Crawl 包含数十亿个从 Internet 抓取的网页。尽管 C4 数据集被明确设计为仅英语，但 MC4 覆盖了 Common Crawl 迄今为止发布的 108 种语言阅读全文

posted @ 2023-07-11 19:58 张Zong在修行阅读(628) 评论(0) 推荐(0) 编辑

NLP应用 | thumt的bleu评估讲解

摘要：### **传入参数：** **model：** ```txt # def parse_args 中，命令行输入模型名称，默认是"transformer"。 parser.add_argument("--model", type=str, required=True, help="Name of t 阅读全文

posted @ 2023-07-10 18:54 张Zong在修行阅读(111) 评论(0) 推荐(0) 编辑

Python | os.makedirs函数的使用

摘要：### 概述 `os.makedirs()` 方法用于递归创建目录。如果子目录创建失败或者已经存在，会抛出一个 OSError 的异常，Windows上Error 183 即为目录已经存在的异常错误。如果第一个参数 path 只有一级，则 `mkdir()`函数相同。 ### 语法 **make 阅读全文

posted @ 2023-07-10 10:47 张Zong在修行阅读(449) 评论(0) 推荐(0) 编辑

Python | 导入模块加括号

摘要：我们在阅读源码的时候可以看见这样的代码： ```python from torchmetrics.classification import ( accuracy, precision, recall, f1_score, iou, hamming_distance, ) ``` 如果不加括号，代码阅读全文

posted @ 2023-07-09 19:50 张Zong在修行阅读(191) 评论(0) 推荐(0) 编辑

预训练模型 | mGPT详解

摘要：**模型下载地址**：https://www.huggingface.co/THUMT/mGPT ### mGPT mGPT使用因果语言建模目标在[mC4 数据集](https://huggingface.co/datasets/mc4)上进行预训练。它已在[本文](https://arxiv.or 阅读全文

posted @ 2023-07-09 17:37 张Zong在修行阅读(466) 评论(0) 推荐(0) 编辑

Python | 认识编码

摘要：编码（Encoding）是将字符转换为计算机可以处理的二进制数据的过程。在计算机中，所有的文本都是以二进制形式存储的，因此需要使用编码将文本转换为二进制数据。Python 中的编码指的是将字符串转换为字节串（bytes）的过程，或将字节串转换为字符串的过程。 ### 编码与解码在 Python 中阅读全文

posted @ 2023-07-09 15:52 张Zong在修行阅读(120) 评论(0) 推荐(0) 编辑

NLP | 文本分词的工具包

摘要：**文本分词（Tokenization）是将一个文本序列分割成一个个单独的“词”或“标记”的过程**。在自然语言处理（NLP）中，文本分词是一个必要的预处理步骤，几乎所有的自然语言处理任务都需要对文本进行分词。文本分词的目的是根据某种规则或算法，将文本序列分割成较小的单元，例如**单词、词组、标点阅读全文

posted @ 2023-07-09 12:23 张Zong在修行阅读(222) 评论(0) 推荐(0) 编辑

NLP应用 | 读取json文件提取单语数据

摘要：**需求说明：** 我们想要收集单语数据，但是有时候数据是json类型的存在，我们想要在json数据中读取单语数据的部分，把它们处理成每行一条单语数据的文件。 #### 数据展示 **json数据:** ```json # 一条数据的展示 {"articleId": 2, "sentId": 20, 阅读全文

posted @ 2023-07-09 09:01 张Zong在修行阅读(63) 评论(0) 推荐(0) 编辑

Python | 魔法方法整理

摘要：### 前言：魔法方法(Magic Method)是Python内置方法，格式为：“`__方法名__`”，不需要主动调用，存在的目的是为了给python的解释器进行调用，几乎每个魔法方法都有一个对应的内置函数，或者运算符，当我们对这个对象使用这些函数或者运算符时就会调用类中的对应魔法方法，可以理解阅读全文

posted @ 2023-07-08 23:56 张Zong在修行阅读(71) 评论(0) 推荐(0) 编辑

Python | 使用try-except导包

摘要：导包的时候我们可能会遇到这样的代码： ```python try: from .hugmodel import HugModel except Exception: pass ``` 这段代码的作用是尝试导入名为 `HugModel` 的模块，如果导入失败则不做任何操作，而是直接跳过异常。其中 `. 阅读全文

posted @ 2023-07-08 18:56 张Zong在修行阅读(216) 评论(0) 推荐(0) 编辑

工具 | pip常用命令

摘要：相信对于大多数熟悉Python的人来说，一定都听说并且使用过pip这个工具，但是对它的了解可能还不一定是非常的透彻，今天就来为大家介绍pip的小技巧，相信对大家以后管理和使用Python当中的标准库会有帮助。 ### 安装当然在Python 3.4版本之后以及Python 2.7.9版本之后，官网阅读全文

posted @ 2023-07-08 18:06 张Zong在修行阅读(75) 评论(0) 推荐(0) 编辑

Python | json文件和jsonl文件讲解

摘要：众所周知，**JSON 文件**是使用 JSON（JavaScript Object Notation）格式存储数据的文件。它是一种结构化的文本格式，使用键值对的方式表示数据。JSON 文件通常包含一个根对象，可以包含多个嵌套的对象、数组和基本数据类型。而 **`JSONL 文件`（JSON Li 阅读全文

posted @ 2023-07-08 17:36 张Zong在修行阅读(2121) 评论(0) 推荐(0) 编辑

NLP | 词嵌入：原理与应用简要概述

摘要：**词嵌入技术**主要是为了解决自然语言处理中的词表示问题，将词转化成机器容易理解的形式。在早期的自然语言处理任务中，词通常被表示为离散的符号，例如"猫"就是一个符号，"狗"是另一个符号，这种表示方法无法捕捉词与词之间的语义关系。 **作用原理**词嵌入技术将词映射到连续的向量空间中，使得语义上相阅读全文

posted @ 2023-07-08 17:07 张Zong在修行阅读(811) 评论(0) 推荐(0) 编辑

Python | 获取文件中的行数

摘要：在 Python 中，获取文件中的行数可以帮助我们更好地处理和分析数据。Python 提供了一种简单的方法来获取文件中的行数，下面将介绍两种常用的方法。 #### 方法一：使用循环和计数器我们可以使用一个循环来读取文件中的每一行，然后使用计数器来计算行数。下面是示例代码： ```python # 阅读全文

posted @ 2023-07-08 12:13 张Zong在修行阅读(2137) 评论(0) 推荐(0) 编辑

NLP应用 | 保存checkpoint模型

摘要：**需求描述：** 当我们训练模型的时候，我们要训练很多训练步数，我们想要保存训练到一定阶段的checkpoint模型参数，并把这些checkpoint模型保存到一个指定的文件夹下。在文件夹下我们最多保存`keep_checkpoint_max`个checkpoint模型的文件。保存到`output 阅读全文

posted @ 2023-07-07 21:24 张Zong在修行阅读(689) 评论(0) 推荐(0) 编辑

Python | glob模块使用

摘要：### glob模块简介 glob模块可以查找符合特定规则的文件路径名，用来查找文件目录和文件，并将搜索的到的结果返回到一个列表中。常见的两个方法有`glob.glob()`和`glob.iglob()`，类似windows下的文件搜索。glob支持`*?[]`这三种通配符。 ### glob模块的阅读全文

posted @ 2023-07-07 18:58 张Zong在修行阅读(521) 评论(0) 推荐(0) 编辑

PyTorch | torch.save()函数的使用

摘要：Pytorch保存模型等相关参数，利用`torch.save()`，以及读取保存之后的文件。 ### 函数信息 ```python torch.save(obj, f, pickle_module=pickle, pickle_protocol=DEFAULT_PROTOCOL,_use_new_z 阅读全文

posted @ 2023-07-07 18:22 张Zong在修行阅读(3303) 评论(0) 推荐(0) 编辑

Linux | 指定使用的GPU

摘要：### 查看GPU 编号及其使用信息 ```shell $ nvidia-smi ``` 其中左上侧有0、1、2、3的编号，表示GPU的编号，在后面指定GPU时需要使用这个编号。我们可以查看这些卡使用的信息，我们用来查看哪些卡在空闲状态。 ### 指定使用的GPU #### 方法一：在终端执行程序阅读全文

posted @ 2023-07-07 17:29 张Zong在修行阅读(2611) 评论(0) 推荐(0) 编辑

Linux | curl命令详解

摘要：curl是一个命令行访问URL的计算机逻辑语言的工具，发出网络请求，然后得到数据并提取出，显示在标准输出“stdout”上面，可以用它来构造http request报文，curl(CommandLine Uniform Resource Locator),即在命令行中利用URL进行数据或者文件传输。阅读全文

posted @ 2023-07-07 16:50 张Zong在修行阅读(2794) 评论(0) 推荐(0) 编辑

NLP | 对遇到的问题的一些思考

摘要：1、一些成熟的库的封装，有其一系列的配套的模型，标记器，训练函数......。我们要是想使用对应的函数工具，我们首先要把自己的模型注册成人家的模型后，使用起来才不会有很多错。所有尽量不要用各种封装的库进行拼接，可能会有很多坑。 2、数据处理是十分重要的，甚至占绝大部分时间。因为数据的质量对模型的性阅读全文

posted @ 2023-07-07 14:14 张Zong在修行阅读(31) 评论(0) 推荐(0) 编辑

Python报错 | RuntimeError: expected scalar type Long but found Float

摘要：**报错信息** 在执行nlp自定义模型的训练函数的时候，报如下错误： ```python RuntimeError: expected scalar type Float but found Long ``` **错误原因** ```python 错误信息指出了问题所在：模型期望的数据类型是 fl 阅读全文

posted @ 2023-07-07 12:56 张Zong在修行阅读(697) 评论(0) 推荐(0) 编辑

HuggingFace | huggingface中遇到的坑

摘要：### 一、不要尝试使用huggingface的Trainer函数加载自定义模型理论上说，Hugging Face的Trainer函数可以加载自定义模型，只要您的模型是基于PyTorch或TensorFlow实现的，并且实现了必要的方法（如`forward`方法和`from_pretrained` 阅读全文

posted @ 2023-07-07 12:14 张Zong在修行阅读(882) 评论(0) 推荐(0) 编辑

Huggingface | 使用WMT16数据集微调BART训练新的标记进行翻译

摘要：BART模型是用来预训练seq-to-seq模型的降噪自动编码器（autoencoder）。它是一个序列到序列的模型，具有对损坏文本的双向编码器和一个从左到右的自回归解码器，所以它可以完美的执行翻译任务。如果你想在翻译任务上测试一个新的体系结构，比如在自定义数据集上训练一个新的标记，那么处理起来会阅读全文

posted @ 2023-07-06 20:51 张Zong在修行阅读(214) 评论(1) 推荐(0) 编辑

NLP | 稀疏特征和密集特征

摘要：在机器学习中，特征是指对象、人或现象的可测量和可量化的属性或特征。特征可以大致分为两类：稀疏特征和密集特征。 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230706195643595-799661913.png) ## 阅读全文

posted @ 2023-07-06 19:57 张Zong在修行阅读(1730) 评论(0) 推荐(0) 编辑

HuggingFace | 如何下载数据集并加载

摘要：HuggingFace中对于数据集的使用有个`datasets`库。`datasets`是一个用于加载和处理各种自然语言处理（NLP）数据集的Python库，它由Hugging Face开发。该库提供了一个统一的API，可以方便地访问多个数据集，并且支持自定义数据集。`datasets`库的主要特点阅读全文

posted @ 2023-07-06 13:15 张Zong在修行阅读(25343) 评论(0) 推荐(1) 编辑

NLP | 迁移学习介绍

摘要：迁移学习是指将**在一个任务上学到的知识和经验迁移到另一个相关任务上的机器学习方法**。它通过利用源领域的知识来改善目标领域的学习性能。==迁移学习的核心原理是通过共享知识和经验，从已解决的任务中获得的特征、表示或模型，来加速或改善新任务的学习过程==。 ### 常见的迁移学习方法迁移学习的常见方阅读全文

posted @ 2023-07-05 19:45 张Zong在修行阅读(329) 评论(0) 推荐(0) 编辑

NLP | Softmax详解

摘要：Softmax是一种数学函数，通常**用于将一组任意实数转换为表示概率分布的实数**。其本质上是一种归一化函数，==可以将一组任意的实数值转化为在[0, 1]之间的概率值，因为softmax将它们转换为0到1之间的值，所以它们可以被解释为概率==。**如果其中一个输入很小或为负，softmax将其变阅读全文

posted @ 2023-07-05 17:39 张Zong在修行阅读(326) 评论(0) 推荐(0) 编辑

NLP | Transformers回顾：从BERT到GPT4

摘要：人工智能已成为近年来最受关注的话题之一，由于神经网络的发展，曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成，人工智能正在改变我们与技术互动的方式。特别是机器学习 (ML) 模型在自然语言处理 (NLP) 领域取得了重大进展。一个关键的突破是引入了“自注意力”和用于序列处理阅读全文

posted @ 2023-07-05 16:49 张Zong在修行阅读(181) 评论(0) 推荐(0) 编辑

HuggingFace | 如何下载预训练模型

摘要：本例我们在Linux上进行下载，下载的模型是`bert-base-uncased`。下载网址为：https://www.huggingface.co/bert-base-uncased huggingface的transformers框架，囊括了BERT、GPT、GPT2、ToBERTa、T5等众阅读全文

posted @ 2023-07-05 12:36 张Zong在修行阅读(13755) 评论(0) 推荐(1) 编辑

工具 | 使用PyCharm连接服务器

摘要：### 连接服务器我们首先打开pycharm，点击file->Settings。然后搜索`Interpreter`,会搜索到一个叫`Python Interpreter`。 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20 阅读全文

posted @ 2023-07-04 20:01 张Zong在修行阅读(782) 评论(0) 推荐(0) 编辑

Python | yield关键字详解

摘要：### yield关键字的说明 `yield` 是 Python 中的一个关键字，它通常与生成器函数一起使用。`yield`就是保存当前程序执行状态。你用 for 循环的时候，每次取一个元素的时候就会计算一次。用 `yield` 的函数叫 `generator`，和 `iterator` 一样，它阅读全文

posted @ 2023-07-04 18:36 张Zong在修行阅读(1592) 评论(0) 推荐(0) 编辑

NLP | 数据集独立同分布的理解

摘要：在自然语言处理（NLP）中，**独立同分布是指一个数据集中的样本是从同一个总体分布中独立采样而来的**。这意味着数据集中的**每个样本都具有相同的概率分布**，并且这些样本之间是相互独立的，即**一个样本的出现不会影响其他样本的出现**。例如，如果我们收集了一组用于训练文本分类器的新闻文章，并且这阅读全文

posted @ 2023-07-04 17:32 张Zong在修行阅读(948) 评论(0) 推荐(0) 编辑

预训练模型 | Transformer模型的规模大小

摘要：Transformer 有两个模型的规模大小标准：base、big。具体去thumt的models文件夹下的Transformer 模型实现可以看到其参数大小。 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-202307041 阅读全文

posted @ 2023-07-04 10:14 张Zong在修行阅读(1518) 评论(0) 推荐(0) 编辑

NLP | FLOPs是什么

摘要：### 什么是计算密集型任务计算密集型任务指的是需要进行大量计算的任务，通常需要进行大量的数学运算、逻辑运算、数据处理、模拟等操作。这些任务通常需要更多的计算资源，比如更快的处理器、更多的内存、更快的存储设备等。以下是一些常见的计算密集型任务： 1. 科学计算：如数值模拟、天体物理学、量子化学等阅读全文

posted @ 2023-07-04 09:12 张Zong在修行阅读(82) 评论(0) 推荐(0) 编辑

Python | import mmap模块详解（处理大文本）

摘要：如果现在有一个需求，我们需要处理一个20G的大文件，我们会怎么处理呢？思考下，我们需要怎么实现这个功能。我们可能会这么实现： ```python def get_datas(): source_text_path = "路径" with open(source_text_path, 'rb') a 阅读全文

posted @ 2023-07-03 22:26 张Zong在修行阅读(569) 评论(0) 推荐(0) 编辑

机器翻译 | 机器翻译评测指标

摘要：![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230703175940699-1688909283.png) 机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价，我们称其为机器翻译评测。事实上，在科学研阅读全文

posted @ 2023-07-03 18:06 张Zong在修行阅读(2317) 评论(0) 推荐(0) 编辑

系统 | 绝对路径和相对路径

摘要：在文件读取时，有很多地方都会用到绝对路径与相对路径。如在需要文件作为输入、指定文件作为输出，还有一些中间文件，都会用到相对路径与绝对路径。 ### 绝对路径绝对路径是指目录下的绝对位置，直接到达目标位置，通常是从盘符开始的路径。完整的描述文件位置的路径就是绝对路径。 #### 1、Linux下的绝阅读全文

posted @ 2023-07-03 16:30 张Zong在修行阅读(966) 评论(0) 推荐(0) 编辑

Shell | 数值运算

摘要：> Shell 和其它编程语言不同，Shell 不能直接进行算数运算，必须使用数学计算命令 Shell 中常用的数学计算命令如下所示： + `$((expression))` 操作符：可以进行基本的整数运算。 + `let`：对整数进行数学运算，类似于 `$((expression))` 操作符。阅读全文

posted @ 2023-07-03 13:36 张Zong在修行阅读(91) 评论(0) 推荐(0) 编辑

NLP | epoch、train_steps和batch_size的关系

摘要：在深度学习中，通常使用 `epoch`、`train_steps` 和 `batch_size` 三个参数来控制模型的训练过程。它们之间的关系如下： - `epoch` 表示模型训练过程中的迭代次数，**即遍历整个训练数据集的次数**。一个 epoch 完成之后，相当于模型已经看到了整个训练集的数据阅读全文

posted @ 2023-07-03 11:11 张Zong在修行阅读(3341) 评论(1) 推荐(1) 编辑

Python | datetime库函数的详解

摘要：`datetime` 是 Python 内置的日期时间处理库，它包含了处理日期、时间、时间间隔等的类和函数。**datetime** 库可以从系统中获得时间，并以用户选择的格式输出。下面是 `datetime` 常用的类和函数以及它们的详细解释。 ### datetime 类 `datetime` 阅读全文

posted @ 2023-07-03 10:07 张Zong在修行阅读(3569) 评论(0) 推荐(0) 编辑

Python报错 | TypeError: descriptor 'date' requires a 'datetime.datetime' object but received a 'int'

摘要：**报错信息** 使用python创建一个datetime.data类的时候，报如下错误： ```python TypeError: descriptor 'date' requires a 'datetime.datetime' object but received a 'int' ``` ** 阅读全文

posted @ 2023-07-03 09:21 张Zong在修行阅读(719) 评论(0) 推荐(0) 编辑

Python | 文件处理

摘要：### 文件的读写 #### 文件对象在python中用`open()`可以创建一个文件对象。 open()使用方法： ```python open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, cl 阅读全文

posted @ 2023-07-02 21:44 张Zong在修行阅读(54) 评论(0) 推荐(0) 编辑

Python | with关键字详解

摘要：### with使用背景对于系统资源如文件、数据库连接、socket 而言，应用程序打开这些资源并执行完业务逻辑之后，必须做的一件事就是要关闭（释放）该资源。比如 Python 程序打开一个文件，往文件中写内容，写完之后，就要关闭该文件，如果不关闭会出现什么情况呢？极端情况下会出现 **Too 阅读全文

posted @ 2023-07-02 20:36 张Zong在修行阅读(164) 评论(0) 推荐(0) 编辑

zhangxuegold

07 2023 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论