摘要: 我们在阅读源码的时候可以看见这样的代码: ```python from torchmetrics.classification import ( accuracy, precision, recall, f1_score, iou, hamming_distance, ) ``` 如果不加括号,代码 阅读全文
posted @ 2023-07-09 19:50 张Zong在修行 阅读(118) 评论(0) 推荐(0) 编辑
摘要: **模型下载地址**:https://www.huggingface.co/THUMT/mGPT ### mGPT mGPT使用因果语言建模目标在[mC4 数据集](https://huggingface.co/datasets/mc4)上进行预训练。它已在[本文](https://arxiv.or 阅读全文
posted @ 2023-07-09 17:37 张Zong在修行 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 编码(Encoding)是将字符转换为计算机可以处理的二进制数据的过程。在计算机中,所有的文本都是以二进制形式存储的,因此需要使用编码将文本转换为二进制数据。Python 中的编码指的是将字符串转换为字节串(bytes)的过程,或将字节串转换为字符串的过程。 ### 编码与解码 在 Python 中 阅读全文
posted @ 2023-07-09 15:52 张Zong在修行 阅读(39) 评论(0) 推荐(0) 编辑
摘要: **文本分词(Tokenization)是将一个文本序列分割成一个个单独的“词”或“标记”的过程**。在自然语言处理(NLP)中,文本分词是一个必要的预处理步骤,几乎所有的自然语言处理任务都需要对文本进行分词。 文本分词的目的是根据某种规则或算法,将文本序列分割成较小的单元,例如**单词、词组、标点 阅读全文
posted @ 2023-07-09 12:23 张Zong在修行 阅读(91) 评论(0) 推荐(0) 编辑
摘要: **需求说明:** 我们想要收集单语数据,但是有时候数据是json类型的存在,我们想要在json数据中读取单语数据的部分,把它们处理成每行一条单语数据的文件。 #### 数据展示 **json数据:** ```json # 一条数据的展示 {"articleId": 2, "sentId": 20, 阅读全文
posted @ 2023-07-09 09:01 张Zong在修行 阅读(38) 评论(0) 推荐(0) 编辑