nlp基础 - 随笔分类 - 黑逍逍

正则表达式

摘要：. 匹配除换行符以外的任意字符。 ^ 匹配字符串的开头。 $ 匹配字符串的结尾。 * 匹配前一个字符零次或多次。 + 匹配前一个字符一次或多次。 ? 匹配前一个字符零次或一次。非贪婪匹配，只要后面的满足就停止 {n} 匹配前一个字符恰好 n 次。 {n,} 匹配前一个字符至少 n 次。 {n,m} 阅读全文

posted @ 2024-03-12 12:33 黑逍逍阅读(36) 评论(0) 推荐(0)

提取SAO

摘要："SAO" 这个概念在自然语言处理（NLP）领域中指的是从文本中提取“主体-动作-客体”（Subject-Action-Object）结构。主体（Subject）：通常是句子中执行动作的人或事物。在英文中，主体通常位于句子的开头。动作（Action）：这是句子中描述的主要动作或事件。在英文中，动阅读全文

posted @ 2024-01-18 18:16 黑逍逍阅读(683) 评论(0) 推荐(0)

Stanford Praser工具的使用

摘要：啊阅读全文

posted @ 2024-01-17 16:34 黑逍逍阅读(16) 评论(0) 推荐(0)

分词、去停用词、词性还原

摘要：分词就是讲一句话，根据名词，短句，专有名词，分开 text = "我爱自然语言处理"分割后 = "我/爱/自然语言/处理" NLTK（Natural Language Toolkit） import nltk nltk.download('punkt') # 首次使用需要下载数据 from nlt 阅读全文

posted @ 2024-01-17 16:34 黑逍逍阅读(75) 评论(0) 推荐(0)

doc转docx

摘要：费劲死了。 python go fs 阅读全文

posted @ 2023-12-13 16:48 黑逍逍阅读(20) 评论(0) 推荐(0)

处理word---docx

摘要：是阅读全文

posted @ 2023-12-06 09:17 黑逍逍阅读(14) 评论(0) 推荐(0)

处理XML-----xPath

摘要：xml下用xpath from lxml import etree tree = etree.parse(file_path) root = tree.getroot() title_expression = "/article/title[not(@xml:lang)]//text()" titl 阅读全文

posted @ 2023-12-04 09:45 黑逍逍阅读(42) 评论(0) 推荐(0)

处理XML--xml.etree.ElementTree

摘要：XML文档的根元素根元素是XML文档中所有其他元素的父元素。它是文档的起点，必须是唯一的<root>  </root> 介绍xml信息属性类型意义调用 tag str Element名 Element.tag attrib dic 元素有哪些属性 Element. 阅读全文

posted @ 2023-12-01 17:30 黑逍逍阅读(142) 评论(0) 推荐(0)

embedding嵌入

摘要：自然语言处理领域中，"embedding"（嵌入）通常指将高维的数据映射到低维空间的过程。在自然语言处理中，最常见的是词嵌入（word embeddings）词袋模型，词嵌入等等等等。都需要构建词汇表，个人能力是很有限，根本不可能构建一个效果好的。所以我不使用这些小型效果也不好，得到96维度的向阅读全文

posted @ 2023-11-28 18:02 黑逍逍阅读(53) 评论(0) 推荐(0)

英文分词NLTK

摘要：？阅读全文

posted @ 2023-10-26 22:23 黑逍逍阅读(25) 评论(0) 推荐(0)

中文分词jieba

摘要：？阅读全文

posted @ 2023-10-26 22:23 黑逍逍阅读(21) 评论(0) 推荐(0)

词袋模型

摘要：不好用，以后也不会用很难用，非常不建议，训练模型和预测时候，词嵌入维度都不一致参考文档：https://blog.csdn.net/ProgramNovice/article/details/128159731 阅读全文

posted @ 2023-10-23 00:25 黑逍逍阅读(30) 评论(0) 推荐(0)

文本张量和文本向量

摘要：文本张量（Text Tensor）是一种将文本数据表示为多维数组（张量）的数据结构。文本张量通常用于深度学习和神经网络模型中，以便将文本数据传递给这些模型进行训练或推断。文本数据的维度通常包括以下方面：词汇表：文本张量的一个重要维度是词汇表大小，即语料库中唯一单词的数量。这通常是一个整数值，表示阅读全文

posted @ 2023-10-22 23:49 黑逍逍阅读(280) 评论(0) 推荐(0)

词向量word2vec

摘要：词向量（Word Vectors），也被称为词嵌入（Word Embeddings）是自然语言处理（NLP）领域的重要概念之一。它们是一种将单词映射到连续向量空间的技术，使计算机能够更好地理解和处理文本数据。词向量的主要思想是将单词的语义信息编码成连续的实数向量，使相似的词在向量空间中距离较近，阅读全文

posted @ 2023-10-22 21:48 黑逍逍阅读(171) 评论(0) 推荐(0)

【文本向量化】【刚接触NLP，啥也不会，写错的，都是泪】Scikit-learn 的 preprocessing.LabelEncoder函数：标签编码

摘要：参考文档：https://pythonjishu.com/sklearn-preprocessing-labelencoder/ 最开始写NLP，其实是想把句子变成词向量。用了词袋模型，用了word2vec，都也没用明白。糊里糊涂的用到了这个哈哈哈转换类别数据为整数：LabelEncoder 可阅读全文

posted @ 2023-10-20 17:52 黑逍逍阅读(82) 评论(0) 推荐(0)

NLP的模型

摘要：原来NLP也有模型，用pytorch、tensorflow等训练出来的摘要模型、分类模型等等 https://huggingface.co/models 阅读全文

posted @ 2023-10-11 17:33 黑逍逍阅读(85) 评论(0) 推荐(0)

随笔分类 - 机器（深度）学习 / NLP / nlp基础

公告