随笔分类 -  机器(深度)学习 / NLP / nlp基础

正则表达式
摘要:. 匹配除换行符以外的任意字符。 ^ 匹配字符串的开头。 $ 匹配字符串的结尾。 * 匹配前一个字符零次或多次。 + 匹配前一个字符一次或多次。 ? 匹配前一个字符零次或一次。非贪婪匹配,只要后面的满足就停止 {n} 匹配前一个字符恰好 n 次。 {n,} 匹配前一个字符至少 n 次。 {n,m} 阅读全文
posted @ 2024-03-12 12:33 黑逍逍 阅读(6) 评论(0) 推荐(0) 编辑
提取SAO
摘要:"SAO" 这个概念在自然语言处理(NLP)领域中指的是从文本中提取“主体-动作-客体”(Subject-Action-Object)结构。 主体(Subject):通常是句子中执行动作的人或事物。在英文中,主体通常位于句子的开头。 动作(Action):这是句子中描述的主要动作或事件。在英文中,动 阅读全文
posted @ 2024-01-18 18:16 黑逍逍 阅读(387) 评论(0) 推荐(0) 编辑
Stanford Praser工具的使用
摘要:啊 阅读全文
posted @ 2024-01-17 16:34 黑逍逍 阅读(2) 评论(0) 推荐(0) 编辑
分词、去停用词、词性还原
摘要:分词 就是讲一句话,根据名词,短句,专有名词,分开 text = "我爱自然语言处理"分割后 = "我/爱/自然语言/处理" NLTK(Natural Language Toolkit) import nltk nltk.download('punkt') # 首次使用需要下载数据 from nlt 阅读全文
posted @ 2024-01-17 16:34 黑逍逍 阅读(38) 评论(0) 推荐(0) 编辑
doc转docx
摘要:费劲死了。 python go fs 阅读全文
posted @ 2023-12-13 16:48 黑逍逍 阅读(5) 评论(0) 推荐(0) 编辑
处理word---docx
摘要:是 阅读全文
posted @ 2023-12-06 09:17 黑逍逍 阅读(5) 评论(0) 推荐(0) 编辑
处理XML-----xPath
摘要:xml下用xpath from lxml import etree tree = etree.parse(file_path) root = tree.getroot() title_expression = "/article/title[not(@xml:lang)]//text()" titl 阅读全文
posted @ 2023-12-04 09:45 黑逍逍 阅读(6) 评论(0) 推荐(0) 编辑
处理XML--xml.etree.ElementTree
摘要:XML文档的根元素 根元素是XML文档中所有其他元素的父元素。它是文档的起点,必须是唯一的<root> <!-- 其他元素和内容 --> </root> 介绍xml信息 属性类型意义调用 tag str Element名 Element.tag attrib dic 元素有哪些属性 Element. 阅读全文
posted @ 2023-12-01 17:30 黑逍逍 阅读(110) 评论(0) 推荐(0) 编辑
embedding嵌入
摘要:自然语言处理领域中,"embedding"(嵌入)通常指将高维的数据映射到低维空间的过程。在自然语言处理中,最常见的是词嵌入(word embeddings) 词袋模型,词嵌入等等等等。都需要构建词汇表,个人能力是很有限,根本不可能构建一个效果好的。所以我不使用这些 小型效果也不好,得到96维度的向 阅读全文
posted @ 2023-11-28 18:02 黑逍逍 阅读(22) 评论(0) 推荐(0) 编辑
英文分词NLTK
摘要:? 阅读全文
posted @ 2023-10-26 22:23 黑逍逍 阅读(11) 评论(0) 推荐(0) 编辑
中文分词jieba
摘要:? 阅读全文
posted @ 2023-10-26 22:23 黑逍逍 阅读(3) 评论(0) 推荐(0) 编辑
词袋模型
摘要:不好用,以后也不会用 很难用,非常不建议,训练模型和预测时候,词嵌入维度都不一致 参考文档:https://blog.csdn.net/ProgramNovice/article/details/128159731 阅读全文
posted @ 2023-10-23 00:25 黑逍逍 阅读(13) 评论(0) 推荐(0) 编辑
文本张量和文本向量
摘要:文本张量(Text Tensor) 是一种将文本数据表示为多维数组(张量)的数据结构。文本张量通常用于深度学习和神经网络模型中,以便将文本数据传递给这些模型进行训练或推断。文本数据的维度通常包括以下方面: 词汇表:文本张量的一个重要维度是词汇表大小,即语料库中唯一单词的数量。这通常是一个整数值,表示 阅读全文
posted @ 2023-10-22 23:49 黑逍逍 阅读(197) 评论(0) 推荐(0) 编辑
词向量word2vec
摘要:词向量(Word Vectors),也被称为词嵌入(Word Embeddings) 是自然语言处理(NLP)领域的重要概念之一。它们是一种将单词映射到连续向量空间的技术,使计算机能够更好地理解和处理文本数据。词向量的主要思想是 将单词的语义信息编码成连续的实数向量,使相似的词在向量空间中距离较近, 阅读全文
posted @ 2023-10-22 21:48 黑逍逍 阅读(111) 评论(0) 推荐(0) 编辑
【文本向量化】【刚接触NLP,啥也不会,写错的,都是泪】Scikit-learn 的 preprocessing.LabelEncoder函数:标签编码
摘要:参考文档:https://pythonjishu.com/sklearn-preprocessing-labelencoder/ 最开始写NLP,其实是想把句子变成词向量。用了词袋模型,用了word2vec,都也没用明白。糊里糊涂的用到了这个 哈哈哈 转换类别数据为整数:LabelEncoder 可 阅读全文
posted @ 2023-10-20 17:52 黑逍逍 阅读(42) 评论(0) 推荐(0) 编辑
NLP的模型
摘要:原来NLP也有模型,用pytorch、tensorflow等训练出来的 摘要模型、分类模型等等 https://huggingface.co/models 阅读全文
posted @ 2023-10-11 17:33 黑逍逍 阅读(65) 评论(0) 推荐(0) 编辑




点击右上角即可分享
微信分享提示