07 2023 档案
摘要:本实验首先为大家介绍了爬虫必备的知识 cookie,掌握 cookie 的使用场景之后,再结合爬虫思想实现了两款实用工具,自动点赞器与自动签到器,为大家扩展了爬虫编写工具的新思路。本节实验的最后会向大家简单介绍爬虫未来的学习方向。 #### 知识点 - cookie 与爬虫 - 实验楼社区点赞器 -
阅读全文
摘要:### 什么是Pipeline + **Pipeline** + 将数据预处理、模型调用、结果后处理三部分组装成的流水线 + 使我们能够直接输入文本便获得最终的答案 `的时候,报如下错误: ```python ImportError: To be able to use evaluate-metric/seqeval, you need to install the fol
阅读全文
摘要:**训练一个NLU模型** 本文将使用trainer 训练一个牛客网讨论帖文本分类模型。详细过程如下: #### 构建数据集 数据集下载链接: [train data](https://github.com/chadqiu/newcoder-crawler/blob/main/train.csv)
阅读全文
摘要:**报错信息** Python加载xlsx文件时,遇到: ```python xlrd.biffh.XLRDError Excel xlsx file; not supported ``` **错误原因** 报错翻译过来是: ```python xlrd.biffh.xlrd错误:Excel xls
阅读全文
摘要:在Hugging Face中,`config.json`文件是用于配置预训练模型参数的文件。这个文件通常包含了模型的架构、超参数和其他模型配置信息。它是一个JSON格式的文件,可以在加载模型时用来初始化模型的配置。 在加载模型时,`from_pretrained()`方法通常会自动加载相应的`con
阅读全文
摘要:在 Hugging Face 中,有多种不同的 tokenizer 实现可供选择,每种实现都有其独特的优缺点和用途。 1. `BertTokenizer`:适用于 BERT 模型,支持 WordPiece 分词和 Byte-Pair Encoding(BPE)分词算法。它还支持对输入序列进行截断和填
阅读全文
摘要:本实验将实现一款爬虫工具,微博热搜采集发送器,通过 requests 库加 bs4 库完成对热搜的爬取,之后通过 smtplib 库与 email 库实现邮件信息的传递。最后还为大家介绍了一个爬虫技巧,pandas 一行代码抓取表格数据。 #### 知识点 - 微博热搜爬取 - Python 邮件发
阅读全文
摘要:我们使用huggingface的`from_pretrained()`函数加载模型和`tokenizer`,那么加载这些需要什么文件?  爬取知识 - 美食案例实操 - 实验楼社区案例实操 ### 接口(A
阅读全文
摘要:本实验将讲解 Beautiful Soup 4 库解析 HTML 的常见用法,它的中文名字是「美丽汤」。在使用 pip 安装该库时的名字是 beautifulsoup4 ,在使用该库时包的名字是 bs4 ,要注意它们的区别。 Beautiful Soup 4 专注于解析 HTML / XML 源码并
阅读全文
摘要:论文地址:https://arxiv.org/abs/1910.03009 ### 动机 神经机器翻译(NMT)模型在翻译**干净文本**时已被证明是强大的,但它们**对输入中的噪声非常敏感**。改进NMT模型的鲁棒性可以看作是对噪声的“域”适应的一种形式。 最先进的方法严重依赖于大量的反向翻译数据
阅读全文
摘要:首先在pycharm中创建一个python的空项目`project`,删除main.py。 > #### 1.配置远程服务器信息 打开pycharm,选择Tools —> Deployment —> Configuration,点右上角的“+”添加服务器信息,服务器类型选择SFTP,name自己习惯
阅读全文
摘要:**我的项目中使用了thumt的包,但是放在了自己的项目代码中,而且进行修改了,但是它不执行项目中修改的** 如果对thumt包进行了修改,但是在项目中并没有生效,可能是因为您在导入thumt包时使用了相对路径或者系统默认的搜索路径,而不是使用您修改后的thumt包。 为了确保使用您修改后的thum
阅读全文
摘要:Linux export 命令 是一个 Bash 命令,用于设置或显示环境变量。 在 shell 中执行程序时,shell 会提供一组环境变量,如 PATH、PYTHONPATH 等。export 可新增,修改或删除环境变量,供后续执行的程序使用。==`export` 的效力仅限于该次登陆操作==。
阅读全文
摘要:### 什么是爬虫 如果说把互联网比喻成蜘蛛网,那么爬虫就是在这张网上的蜘蛛,它可以在上面爬来爬去。在互联网中,爬虫就是机器人,你应该对百度和 Google 很熟悉吧,为什么我们可以很快的从它们的搜索引擎中获取到资料呢? 原因就是它们都有自己的爬虫,在整个互联网上,24小时不间断的爬取那些愿意让它们
阅读全文
摘要:setup.py是Python中用于构建、打包和发布第三方库的脚本文件。它通常位于Python库的根目录下,并包含了一些元数据和配置信息,用于指定库的名称、版本、作者、依赖项等。 setup.py的内容通常包括以下部分: 1. 导入setuptools模块或distutils模块。setuptool
阅读全文
摘要:### **1.** **有序列表** 概念:有顺序或侧重顺序的列表。 ```html 要把大象放冰箱总共分几步 把冰箱门打开 把大象放进去 把冰箱门关上 ``` ### **2.** **无序列表** 概念:无顺序或不侧重顺序的列表。 ```html 我想去的几个城市 成都 上海 西安 武汉 ``
阅读全文
摘要:主要作用:从当前页面进行跳转。 可以实现:①跳转到指定页面、②跳转到指定文件(也可触发下载)、③跳转到锚点位置、④唤起指定应用。 | **标签名** | 标签语义 | **常用属性** | **单** **/** **双 标签** | | : : | : : | | : : | | `a` | 超链
阅读全文
摘要:在 `HTML` 中我们可以用一种**特殊的形式**的内容,来表示某个**符号**,这种特殊形式的内容,就是 `HTML` 实体。比如小于号 ` **字符实体**由三部分组成:一个 `&` 和 一个实体名称(或者一个 `#` 和 一个实体编号),最后加上一个分号` ;` 。 常见字符实体总结:  我们先要打开开发者工具来定位代码,理清我们需要的数
阅读全文
摘要:### JavaScript起源 + JavaScript诞生于1995年,它的出现主要是用于处理网页中的前端验证。 + 所的前端验证,就是指检查用户输入的内容是否符合一定的规则。 + 比如:用户名的长度,密码的长度,邮箱的格式等。  2. 表格
阅读全文
摘要:### 基本使用 | 标签名 | 标签语义 | 常用属性 | 单 / 双 标签 | | : : | : : | | : : | | `img` | 图片 | `src` :图片路径(又称:图片地址)—— 图片的具体位置`alt` :图片描述`width` :图片宽度,单位是像素,例如:`200px`
阅读全文
摘要:### 什么是防盗链 **防盗链**其实就是采用服务器端编程,通过url过滤技术实现的防止盗链的软件。 比如`file.abc.com/test.rar` 这个下载地址,如果没有装防盗链,别人就能轻而易举的在他的网站上引用这个地址。如果对`file.abc.com` 这个站的服务器端编程,比如通过`
阅读全文
摘要:### 常用文本标签 1. 用于包裹:词汇、短语等。 2. 通常写在排版标签里面。 3. 排版标签更宏观(大段的文字),文本标签更微观(词汇、短语)。 4. 文本标签通常都是行内元素。 | 标签名 | 标签语义 | 单 / 双 标签 | | : : | : : | : : | | em | 要着重阅
阅读全文
摘要:### 什么是 HTML **全称:**HyperText Markup Language(超文本标记语言),专门用来设计和编辑网页。HTML 不是编程语言,没有逻辑处理能力,没有计算能力,不能动态地生成内容,而只能静态地展示网页信息。 **超文本:**暂且简单理解为 “超级的文本”,和普通文本比,
阅读全文
摘要:本博客将学习用 Beautiful Soup 库来实现数据抓取。将会通过爬取世界大学校园排名的数据来讲解 Beautiful Soup 库的基础知识。它包括如何用 Beautiful Soup 库的解析器去解析页面内容、如何遍历和搜索标签树、如何提取出关键的数据并保存到列表或者字典里。 ### Be
阅读全文
摘要:## 一、 基本概念 ### 1、 简介 requests 模块是 python 基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习
阅读全文
摘要:学习爬虫遇到的错误。 **报错信息:** ```python requests.exceptions.SSLError: HTTPSConnectionPool(host=’*****’, port=443): Max retries exceeded with url: / (Caused by
阅读全文
摘要:在我们调用`requests.get(网址)`访问网页时,输出为``。是什么原因呢? 如下运行代码: ```python # 导入访问网页要用的库 import requests # 申明一个变量存储网址 # 网址是一个字符串变量,注意网址前后都必须有引号 url = 'https://movie.
阅读全文
摘要:使用python的pip安装第三方包的时候会出现这个问题。 **报错信息:** ```python ValueError: check_hostname requires server_hostname ``` **解决方法:** 你**可能打开了代理,你可以关闭代理试一下**。如果不行,重启电
阅读全文
摘要:**Markdown 分段函数写法** ```markdown $$ 函数名=\begin{cases} 公式1 & 条件1 \\ 公式2 & 条件2 \\ 公式3 & 条件3 \end{cases}$$ ``` 其中,**`&`表示对齐,`\\`用来表示换行**。 结果如下:  ### 状态码大全 #### 1、1XX(临时响应) `1xx`(临时响应):表
阅读全文
摘要:如果你刚刚开始学习神经网络,激活函数的原理一开始可能很难理解。但是如果你想开发强大的神经网络,理解它们是很重要的。 
阅读全文
摘要:## 摘要 **神经机器翻译(NMT)模型在翻译干净文本时已被证明是强大的,但它们对输入中的噪声非常敏感**。改进NMT模型的鲁棒性可以看作是对噪声的“域”适应的一种形式。**最近创建的基于噪声文本的机器翻译任务语料库为一些语言对提供了噪声清洁的并行数据,但这些数据在大小和多样性方面非常有限**。最
阅读全文
摘要:目前,目标语言端的无标注单语数据已被广泛应用于在机器翻译任务中。然而,目标语言端的无标注数据一旦使用不当,反而会给模型结果带来负面影响。为了有效利用大规模源语言端和目标语言端的单语数据,微软亚洲研究院在 EMNLP 2019 上发表的论文中,提出一种简单的语料数据使用流程,只需要四个步骤就能极大地提
阅读全文
摘要:深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有一些方法的。 与计算机视觉中使用图像进行数据增强不同,NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作,如将图像旋转或将其转换为灰度,并不会改变其语义。语义不变变换
阅读全文
摘要:## 题目 基于单语数据的神经机器翻译模型改进 ## 摘要 神经机器翻译(NMT)在仅使用并行数据进行训练的情况下,在几种语言对上取得了最先进的表现。目标侧单语数据在提高基于短语的统计机器翻译的流畅性方面起着重要作用,我们**研究了单语数据在NMT中的应用**。与之前将NMT模型与单独训练的语言模型
阅读全文
摘要:## 题目 大规模理解反向翻译 ## 摘要 在并行训练语料库中增加目标语言句子的反译,是提高单语数据神经机器翻译的有效方法。这项工作拓宽了对反翻译的理解,并研究了一些生成合成源句的方法。我们发现,除了资源贫乏之外,通过采样或带噪波束输出获得的反向平移是最有效的。我们的分析表明,采样或有噪声的合成数据
阅读全文
摘要:**实现网址:**https://github.com/kimiyoung/transformer-xl/tree/master/pytorch 查看系统变量的值 ```sh $ echo $HOME /home/zlq ``` (2)显示当前 Shell 中所有变量:`set` ```sh $ set BASH=/b
阅读全文
摘要:**基本语法:** (1)test condition (2)[ condition ](**注意 condition 前后要有空格**) 注意:条件非空即为 true,[ atguigu ]返回 true,[ ] 返回 false。 **常用判断条件:** (1)两个整数之间比较 ```sh -e
阅读全文
摘要:正则表达式使用单个字符串来描述、匹配一系列符合某个语法规则的字符串。在很多文本编辑器里,**正则表达式通常被用来检索、替换那些符合某个模式的文本**。在 Linux 中,`grep`,`sed`,`awk` 等文本处理工具都支持通过正则表达式进行模式匹配。 ### 常规匹配 一串不包含特殊字符的正则
阅读全文
摘要:### 系统函数 #### 1、basename **基本语法:** `basename [string / pathname] [suffix] `(功能描述:`basename` 命令会删掉所有的前缀包括最后一个(‘/’)字符,然后将字符串显示出来。 `basename` 可以理解为取路径里的文
阅读全文
摘要:### for循环 **基本语法 1:** ```sh for (( 初始值;循环控制条件;变量变化 )) do 程序 done ``` **例子:从 1 加到 100** ```sh $ touch for1.sh $ vim for1.sh #!/bin/bash sum=0 for((i=0;
阅读全文
摘要:### if判断 **基本语法:** (1)单分支 ```sh if [ 条件判断式 ];then 程序 fi ``` 或者 ```sh if [ 条件判断式 ] then 程序 fi ``` (2)多分支 ```sh if [ 条件判断式 ] then 程序 elif [ 条件判断式 ] then
阅读全文
摘要:### `$n` **基本语法:** `$n` (功能描述:n 为数字,`$0` 代表该脚本名称,`$1-$9` 代表第一到第九个参数,十以上的参数,十以上的参数需要用大括号包含,如`${10}`) **例如:** ```sh $ touch parameter.sh $ vim parameter
阅读全文
摘要:## 题目: 机器翻译的提示大语言模型:一个案例研究 ## 摘要 对提示的研究表明,在很少甚至没有监督训练的情况下,提示在许多任务中表现出色。然而,文献中对机器翻译的提示还没有充分的研究。**本文对翻译提示策略进行了系统的研究,考察了提示模板和示例选择的各种因素,填补了这一空白**。我们进一步==探
阅读全文
摘要:linux系统使用cp命令即可将一个文件夹里面的文件复制到另外一个文件夹里面。这个命令相当于dos下面的copy命令,具体用法是:`cp -r 源文件 目的文件`,其中参数`r`是指连同源文件中的子目录一同拷贝。 在linux系统中复制文件我们可以使用cp或copy命令了,我们要复制文件或目录都可以
阅读全文
摘要:MC4 是C4 的子集,MC4 是从公共 Common Crawl 存储库中提取的约 750GB 英语文本的集合。Common Crawl 包含数十亿个从 Internet 抓取的网页。尽管 C4 数据集被明确设计为仅英语,但 MC4 覆盖了 Common Crawl 迄今为止发布的 108 种语言
阅读全文
摘要:### **传入参数:** **model:** ```txt # def parse_args 中,命令行输入模型名称,默认是"transformer"。 parser.add_argument("--model", type=str, required=True, help="Name of t
阅读全文
摘要:### 概述 `os.makedirs()` 方法用于递归创建目录。 如果子目录创建失败或者已经存在,会抛出一个 OSError 的异常,Windows上Error 183 即为目录已经存在的异常错误。 如果第一个参数 path 只有一级,则 `mkdir()`函数相同。 ### 语法 **make
阅读全文
摘要:我们在阅读源码的时候可以看见这样的代码: ```python from torchmetrics.classification import ( accuracy, precision, recall, f1_score, iou, hamming_distance, ) ``` 如果不加括号,代码
阅读全文
摘要:**模型下载地址**:https://www.huggingface.co/THUMT/mGPT ### mGPT mGPT使用因果语言建模目标在[mC4 数据集](https://huggingface.co/datasets/mc4)上进行预训练。它已在[本文](https://arxiv.or
阅读全文
摘要:编码(Encoding)是将字符转换为计算机可以处理的二进制数据的过程。在计算机中,所有的文本都是以二进制形式存储的,因此需要使用编码将文本转换为二进制数据。Python 中的编码指的是将字符串转换为字节串(bytes)的过程,或将字节串转换为字符串的过程。 ### 编码与解码 在 Python 中
阅读全文
摘要:**文本分词(Tokenization)是将一个文本序列分割成一个个单独的“词”或“标记”的过程**。在自然语言处理(NLP)中,文本分词是一个必要的预处理步骤,几乎所有的自然语言处理任务都需要对文本进行分词。 文本分词的目的是根据某种规则或算法,将文本序列分割成较小的单元,例如**单词、词组、标点
阅读全文
摘要:**需求说明:** 我们想要收集单语数据,但是有时候数据是json类型的存在,我们想要在json数据中读取单语数据的部分,把它们处理成每行一条单语数据的文件。 #### 数据展示 **json数据:** ```json # 一条数据的展示 {"articleId": 2, "sentId": 20,
阅读全文
摘要:### 前言: 魔法方法(Magic Method)是Python内置方法,格式为:“`__方法名__`”,不需要主动调用,存在的目的是为了给python的解释器进行调用,几乎每个魔法方法都有一个对应的内置函数,或者运算符,当我们对这个对象使用这些函数或者运算符时就会调用类中的对应魔法方法,可以理解
阅读全文
摘要:导包的时候我们可能会遇到这样的代码: ```python try: from .hugmodel import HugModel except Exception: pass ``` 这段代码的作用是尝试导入名为 `HugModel` 的模块,如果导入失败则不做任何操作,而是直接跳过异常。其中 `.
阅读全文
摘要:相信对于大多数熟悉Python的人来说,一定都听说并且使用过pip这个工具,但是对它的了解可能还不一定是非常的透彻,今天就来为大家介绍pip的小技巧,相信对大家以后管理和使用Python当中的标准库会有帮助。 ### 安装 当然在Python 3.4版本之后以及Python 2.7.9版本之后,官网
阅读全文
摘要:众所周知,**JSON 文件**是使用 JSON(JavaScript Object Notation)格式存储数据的文件。它是一种结构化的文本格式,使用键值对的方式表示数据。JSON 文件通常包含一个根对象,可以包含多个嵌套的对象、数组和基本数据类型。 而 **`JSONL 文件`(JSON Li
阅读全文
摘要:**词嵌入技术**主要是为了解决自然语言处理中的词表示问题,将词转化成机器容易理解的形式。 在早期的自然语言处理任务中,词通常被表示为离散的符号,例如"猫"就是一个符号,"狗"是另一个符号,这种表示方法无法捕捉词与词之间的语义关系。 **作用原理**词嵌入技术将词映射到连续的向量空间中,使得语义上相
阅读全文
摘要:在 Python 中,获取文件中的行数可以帮助我们更好地处理和分析数据。Python 提供了一种简单的方法来获取文件中的行数,下面将介绍两种常用的方法。 #### 方法一:使用循环和计数器 我们可以使用一个循环来读取文件中的每一行,然后使用计数器来计算行数。下面是示例代码: ```python #
阅读全文
摘要:**需求描述:** 当我们训练模型的时候,我们要训练很多训练步数,我们想要保存训练到一定阶段的checkpoint模型参数,并把这些checkpoint模型保存到一个指定的文件夹下。在文件夹下我们最多保存`keep_checkpoint_max`个checkpoint模型的文件。保存到`output
阅读全文
摘要:### glob模块简介 glob模块可以查找符合特定规则的文件路径名,用来查找文件目录和文件,并将搜索的到的结果返回到一个列表中。常见的两个方法有`glob.glob()`和`glob.iglob()`,类似windows下的文件搜索。glob支持`*?[]`这三种通配符。 ### glob模块的
阅读全文
摘要:Pytorch保存模型等相关参数,利用`torch.save()`,以及读取保存之后的文件。 ### 函数信息 ```python torch.save(obj, f, pickle_module=pickle, pickle_protocol=DEFAULT_PROTOCOL,_use_new_z
阅读全文
摘要:### 查看GPU 编号及其使用信息 ```shell $ nvidia-smi ``` 其中左上侧有0、1、2、3的编号,表示GPU的编号,在后面指定GPU时需要使用这个编号。 我们可以查看这些卡使用的信息,我们用来查看哪些卡在空闲状态。 ### 指定使用的GPU #### 方法一:在终端执行程序
阅读全文
摘要:curl是一个命令行访问URL的计算机逻辑语言的工具,发出网络请求,然后得到数据并提取出,显示在标准输出“stdout”上面,可以用它来构造http request报文,curl(CommandLine Uniform Resource Locator),即在命令行中利用URL进行数据或者文件传输。
阅读全文
摘要:1、一些成熟的库的封装,有其一系列的配套的模型,标记器,训练函数......。我们要是想使用对应的函数工具,我们首先要把自己的模型注册成人家的模型后,使用起来才不会有很多错。 所有尽量不要用各种封装的库进行拼接,可能会有很多坑。 2、数据处理是十分重要的,甚至占绝大部分时间。因为数据的质量对模型的性
阅读全文
摘要:**报错信息** 在执行nlp自定义模型的训练函数的时候,报如下错误: ```python RuntimeError: expected scalar type Float but found Long ``` **错误原因** ```python 错误信息指出了问题所在:模型期望的数据类型是 fl
阅读全文
摘要:### 一、不要尝试使用huggingface的Trainer函数加载自定义模型 理论上说,Hugging Face的Trainer函数可以加载自定义模型,只要您的模型是基于PyTorch或TensorFlow实现的,并且实现了必要的方法(如`forward`方法和`from_pretrained`
阅读全文
摘要:BART模型是用来预训练seq-to-seq模型的降噪自动编码器(autoencoder)。它是一个序列到序列的模型,具有对损坏文本的双向编码器和一个从左到右的自回归解码器,所以它可以完美的执行翻译任务。 如果你想在翻译任务上测试一个新的体系结构,比如在自定义数据集上训练一个新的标记,那么处理起来会
阅读全文
摘要:在机器学习中,特征是指对象、人或现象的可测量和可量化的属性或特征。特征可以大致分为两类:稀疏特征和密集特征。  ##
阅读全文
摘要:HuggingFace中对于数据集的使用有个`datasets`库。`datasets`是一个用于加载和处理各种自然语言处理(NLP)数据集的Python库,它由Hugging Face开发。该库提供了一个统一的API,可以方便地访问多个数据集,并且支持自定义数据集。`datasets`库的主要特点
阅读全文
摘要:迁移学习是指将**在一个任务上学到的知识和经验迁移到另一个相关任务上的机器学习方法**。它通过利用源领域的知识来改善目标领域的学习性能。==迁移学习的核心原理是通过共享知识和经验,从已解决的任务中获得的特征、表示或模型,来加速或改善新任务的学习过程==。 ### 常见的迁移学习方法 迁移学习的常见方
阅读全文
摘要:Softmax是一种数学函数,通常**用于将一组任意实数转换为表示概率分布的实数**。其本质上是一种归一化函数,==可以将一组任意的实数值转化为在[0, 1]之间的概率值,因为softmax将它们转换为0到1之间的值,所以它们可以被解释为概率==。**如果其中一个输入很小或为负,softmax将其变
阅读全文
摘要:人工智能已成为近年来最受关注的话题之一,由于神经网络的发展,曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成,人工智能正在改变我们与技术互动的方式。特别是机器学习 (ML) 模型在自然语言处理 (NLP) 领域取得了重大进展。一个关键的突破是引入了“自注意力”和用于序列处理
阅读全文
摘要:本例我们在Linux上进行下载,下载的模型是`bert-base-uncased`。 下载网址为:https://www.huggingface.co/bert-base-uncased huggingface的transformers框架,囊括了BERT、GPT、GPT2、ToBERTa、T5等众
阅读全文
摘要:### 连接服务器 我们首先打开pycharm,点击file->Settings。然后搜索`Interpreter`,会搜索到一个叫`Python Interpreter`。 中,**独立同分布是指一个数据集中的样本是从同一个总体分布中独立采样而来的**。这意味着数据集中的**每个样本都具有相同的概率分布**,并且这些样本之间是相互独立的,即**一个样本的出现不会影响其他样本的出现**。 例如,如果我们收集了一组用于训练文本分类器的新闻文章,并且这
阅读全文
摘要:Transformer 有两个模型的规模大小标准:base、big。具体去thumt的models文件夹下的Transformer 模型实现可以看到其参数大小。 : source_text_path = "路径" with open(source_text_path, 'rb') a
阅读全文
摘要: 机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。 事实上,在科学研
阅读全文
摘要:在文件读取时,有很多地方都会用到绝对路径与相对路径。如在需要文件作为输入、指定文件作为输出,还有一些中间文件,都会用到相对路径与绝对路径。 ### 绝对路径 绝对路径是指目录下的绝对位置,直接到达目标位置,通常是从盘符开始的路径。完整的描述文件位置的路径就是绝对路径。 #### 1、Linux下的绝
阅读全文
摘要:> Shell 和其它编程语言不同,Shell 不能直接进行算数运算,必须使用数学计算命令 Shell 中常用的数学计算命令如下所示: + `$((expression))` 操作符:可以进行基本的整数运算。 + `let`:对整数进行数学运算,类似于 `$((expression))` 操作符。
阅读全文
摘要:在深度学习中,通常使用 `epoch`、`train_steps` 和 `batch_size` 三个参数来控制模型的训练过程。它们之间的关系如下: - `epoch` 表示模型训练过程中的迭代次数,**即遍历整个训练数据集的次数**。一个 epoch 完成之后,相当于模型已经看到了整个训练集的数据
阅读全文
摘要:`datetime` 是 Python 内置的日期时间处理库,它包含了处理日期、时间、时间间隔等的类和函数。**datetime** 库可以从系统中获得时间,并以用户选择的格式输出。下面是 `datetime` 常用的类和函数以及它们的详细解释。 ### datetime 类 `datetime`
阅读全文
摘要:**报错信息** 使用python创建一个datetime.data类的时候,报如下错误: ```python TypeError: descriptor 'date' requires a 'datetime.datetime' object but received a 'int' ``` **
阅读全文
摘要:### 文件的读写 #### 文件对象 在python中用`open()`可以创建一个文件对象。 open()使用方法: ```python open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, cl
阅读全文
摘要:### with使用背景 对于系统资源如文件、数据库连接、socket 而言,应用程序打开这些资源并执行完业务逻辑之后,必须做的一件事就是要关闭(释放)该资源。 比如 Python 程序打开一个文件,往文件中写内容,写完之后,就要关闭该文件,如果不关闭会出现什么情况呢?极端情况下会出现 **Too
阅读全文