2023 年 7月 9 日随笔档案 - 张Zong在修行

2023年7月9日

摘要：我们在阅读源码的时候可以看见这样的代码： ```python from torchmetrics.classification import ( accuracy, precision, recall, f1_score, iou, hamming_distance, ) ``` 如果不加括号，代码阅读全文

posted @ 2023-07-09 19:50 张Zong在修行阅读(118) 评论(0) 推荐(0) 编辑

预训练模型 | mGPT详解

摘要： **模型下载地址**：https://www.huggingface.co/THUMT/mGPT ### mGPT mGPT使用因果语言建模目标在[mC4 数据集](https://huggingface.co/datasets/mc4)上进行预训练。它已在[本文](https://arxiv.or 阅读全文

posted @ 2023-07-09 17:37 张Zong在修行阅读(320) 评论(0) 推荐(0) 编辑

Python | 认识编码

摘要：编码（Encoding）是将字符转换为计算机可以处理的二进制数据的过程。在计算机中，所有的文本都是以二进制形式存储的，因此需要使用编码将文本转换为二进制数据。Python 中的编码指的是将字符串转换为字节串（bytes）的过程，或将字节串转换为字符串的过程。 ### 编码与解码在 Python 中阅读全文

posted @ 2023-07-09 15:52 张Zong在修行阅读(39) 评论(0) 推荐(0) 编辑

NLP | 文本分词的工具包

摘要： **文本分词（Tokenization）是将一个文本序列分割成一个个单独的“词”或“标记”的过程**。在自然语言处理（NLP）中，文本分词是一个必要的预处理步骤，几乎所有的自然语言处理任务都需要对文本进行分词。文本分词的目的是根据某种规则或算法，将文本序列分割成较小的单元，例如**单词、词组、标点阅读全文

posted @ 2023-07-09 12:23 张Zong在修行阅读(91) 评论(0) 推荐(0) 编辑

NLP应用 | 读取json文件提取单语数据

摘要： **需求说明：** 我们想要收集单语数据，但是有时候数据是json类型的存在，我们想要在json数据中读取单语数据的部分，把它们处理成每行一条单语数据的文件。 #### 数据展示 **json数据:** ```json # 一条数据的展示 {"articleId": 2, "sentId": 20, 阅读全文

posted @ 2023-07-09 09:01 张Zong在修行阅读(38) 评论(0) 推荐(0) 编辑

zhangxuegold

公告