随笔分类 - 机器(深度)学习 / NLP / nlp基础
正则表达式
摘要:. 匹配除换行符以外的任意字符。 ^ 匹配字符串的开头。 $ 匹配字符串的结尾。 * 匹配前一个字符零次或多次。 + 匹配前一个字符一次或多次。 ? 匹配前一个字符零次或一次。非贪婪匹配,只要后面的满足就停止 {n} 匹配前一个字符恰好 n 次。 {n,} 匹配前一个字符至少 n 次。 {n,m}
阅读全文
提取SAO
摘要:"SAO" 这个概念在自然语言处理(NLP)领域中指的是从文本中提取“主体-动作-客体”(Subject-Action-Object)结构。 主体(Subject):通常是句子中执行动作的人或事物。在英文中,主体通常位于句子的开头。 动作(Action):这是句子中描述的主要动作或事件。在英文中,动
阅读全文
分词、去停用词、词性还原
摘要:分词 就是讲一句话,根据名词,短句,专有名词,分开 text = "我爱自然语言处理"分割后 = "我/爱/自然语言/处理" NLTK(Natural Language Toolkit) import nltk nltk.download('punkt') # 首次使用需要下载数据 from nlt
阅读全文
处理XML-----xPath
摘要:xml下用xpath from lxml import etree tree = etree.parse(file_path) root = tree.getroot() title_expression = "/article/title[not(@xml:lang)]//text()" titl
阅读全文
处理XML--xml.etree.ElementTree
摘要:XML文档的根元素 根元素是XML文档中所有其他元素的父元素。它是文档的起点,必须是唯一的<root> <!-- 其他元素和内容 --> </root> 介绍xml信息 属性类型意义调用 tag str Element名 Element.tag attrib dic 元素有哪些属性 Element.
阅读全文
embedding嵌入
摘要:自然语言处理领域中,"embedding"(嵌入)通常指将高维的数据映射到低维空间的过程。在自然语言处理中,最常见的是词嵌入(word embeddings) 词袋模型,词嵌入等等等等。都需要构建词汇表,个人能力是很有限,根本不可能构建一个效果好的。所以我不使用这些 小型效果也不好,得到96维度的向
阅读全文
词袋模型
摘要:不好用,以后也不会用 很难用,非常不建议,训练模型和预测时候,词嵌入维度都不一致 参考文档:https://blog.csdn.net/ProgramNovice/article/details/128159731
阅读全文
文本张量和文本向量
摘要:文本张量(Text Tensor) 是一种将文本数据表示为多维数组(张量)的数据结构。文本张量通常用于深度学习和神经网络模型中,以便将文本数据传递给这些模型进行训练或推断。文本数据的维度通常包括以下方面: 词汇表:文本张量的一个重要维度是词汇表大小,即语料库中唯一单词的数量。这通常是一个整数值,表示
阅读全文
词向量word2vec
摘要:词向量(Word Vectors),也被称为词嵌入(Word Embeddings) 是自然语言处理(NLP)领域的重要概念之一。它们是一种将单词映射到连续向量空间的技术,使计算机能够更好地理解和处理文本数据。词向量的主要思想是 将单词的语义信息编码成连续的实数向量,使相似的词在向量空间中距离较近,
阅读全文
【文本向量化】【刚接触NLP,啥也不会,写错的,都是泪】Scikit-learn 的 preprocessing.LabelEncoder函数:标签编码
摘要:参考文档:https://pythonjishu.com/sklearn-preprocessing-labelencoder/ 最开始写NLP,其实是想把句子变成词向量。用了词袋模型,用了word2vec,都也没用明白。糊里糊涂的用到了这个 哈哈哈 转换类别数据为整数:LabelEncoder 可
阅读全文