摘要: Python 文本分析 笔记 中文停用词处理 自行下载 shotwords.txt,代码如下: def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8 阅读全文
posted @ 2019-08-14 18:54 翡翠嫩白菜 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 8.最佳电影聚类分析 将使用电影简介作为原始数据,将总共 100 部流行电影进行聚类分析。IMDb 也称为互联网电影数据库(www.imdb.com),是一个在线的数据库,它提供有关电影、电子游戏和电视节目的大量详细信息。它聚集了电影和电视节目的评论以及简介,并有几个精选影片清单。原始数据地址 ht 阅读全文
posted @ 2019-08-14 18:54 翡翠嫩白菜 阅读(2791) 评论(1) 推荐(1) 编辑
摘要: 7.文档聚类 文档聚类或聚类分析是 NLP 和文本分析中一个有趣的领域,它应用了无监督的 ML 概念和技术。文档聚类的主要前提类似于文档分类,从文档的完整语料库开始,并根据文档的一些独特的特性、属性和特征将它们分为不同的组。文档分类需要预先标记的培训数据来构建模型,然后对文档进行分类。文档聚类则使用 阅读全文
posted @ 2019-08-14 18:53 翡翠嫩白菜 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 5.词项相似度分析 将从分析词项相似度入手,或者更准确的说,将从分析单独的单词标识相似度入手。虽然词项相似度分析没有在实际应用中大量使用,但是仍可以作为理解文本相似度分析的一个很好的出发点。当然,一些应用程序和用例(如自动填充程序、拼写检查和文本校正器)也会使用词项相似度分析中的部分技术来纠正拼写错 阅读全文
posted @ 2019-08-14 18:52 翡翠嫩白菜 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 6.文档相似度分析 将尝试分析文档之间的相似度指出。到目前为止,相比已经知道了文档的定义是可以由句子或文本段落组成的文本体。为了分析文档相似度,将使用 utils 模块的 build_feature_matrix() 函数从文档中提取特征。将使用文档的 TF-IDF 相似度对文档进行向量化,在之前的 阅读全文
posted @ 2019-08-14 18:52 翡翠嫩白菜 阅读(1520) 评论(0) 推荐(0) 编辑
摘要: 2.文本规范化 再进一步开展分析或 NLP 之前,首先需要规范文本文档的语料库。为此,将再次使用规范化模块,此外还需要应用一些专门针对内容的新技术。 在分析了许多语料库后,经过精心挑选了一些新词,并将它们更新禁了停用词名单,如下代码展示: stopword_list = nltk.corpus.st 阅读全文
posted @ 2019-08-14 18:51 翡翠嫩白菜 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 4.文本相似度 文本相似度分析的主要目的是分析和测量两个文本彼此距离的远近。这些文本实体可以是简单的标识或词频,例如单词,也可以是包含句子和文本段落的整个文档。目前有各种各样的文本相似度分析方法,文本相似度分析的目的大致分为以下两个方面。 词汇相似度:通过句法、结构和内容研究文本文档的内容,并根据这 阅读全文
posted @ 2019-08-14 18:51 翡翠嫩白菜 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 3.特征提取 将使用特征提取函数。函数代码也与之前类似,该函数具体如下: utils.py 折叠源码 # -*- coding: utf-8 -*- """ Created on Sun Sep 11 23:06:06 2016 @author: DIP """ from sklearn.featu 阅读全文
posted @ 2019-08-14 18:48 翡翠嫩白菜 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 1.重要概念 主要目的是为了解文本相似度和聚类。在介绍实际的技术和算法之前,将讨论与信息检索。文档相似度度量和机器学习相关的一些重要概念。虽然这些概念中的部分可能已经讲述过。 信息检索 信息检索(Information Retrieval,IR)是根据某些需求从存储信息的语料库或实体中检索或获取相关 阅读全文
posted @ 2019-08-14 18:44 翡翠嫩白菜 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 2.重要概念 掌握几个重要的数学和机器学习的概念在日常非常有用,因为将立足于这些概念的几个实现。有些会很熟悉,但为了完整起见,将再次介绍,以便于可以重温内容。 文档 文档通常是一个包含完整文档数据的实体,包含可选的标题和其他元数据信息。语料库通常由一系列文档组成。这些文档可以是简单的句子或完整的文本 阅读全文
posted @ 2019-08-14 18:43 翡翠嫩白菜 阅读(191) 评论(0) 推荐(0) 编辑
摘要: Python 文本相似度和聚类 文本数据是非结构化的和高噪声的。在执行文本分类时,拥有标记合理的训练数据和有监督学习大有裨益。但是,文档聚类是一个无监督的学习过程,将尝试通过让机器学习各种各样的文本文档及其特征、相似度以及它们之间的差异,来讲文本 文档分割和分类为单独的类别。这使得文档聚类更具挑战性 阅读全文
posted @ 2019-08-14 18:43 翡翠嫩白菜 阅读(2973) 评论(0) 推荐(0) 编辑
摘要: 1.文本摘要和信息提取 文本摘要和信息提取处理试图充巨大的文本语料库中提取关键的重要概念和主题,本质上是在此过程中对它们进行缩减。在深入了解概念和技术之前,应该先了解对文本概要的需求。信息过载(information overload)的概念是文本摘要需求背后的主要原因之一。 由于印刷和口头媒体占据 阅读全文
posted @ 2019-08-14 18:42 翡翠嫩白菜 阅读(1220) 评论(0) 推荐(0) 编辑
摘要: 下面将在文本分析领域处理一个稍微不同的问题。世界在科技、贸易、商业和媒体方面迅速发展。昔日我们等待包纸到家,从而了解更新世界各种活动信息的日子已经过去。现在有了互联网和各种形式的社交媒体,已用它们以保持日常事件信息的及时更新,并于外界以及亲戚朋友保持联系。通过短信和状态,像 Facebook 和 T 阅读全文
posted @ 2019-08-14 18:39 翡翠嫩白菜 阅读(1306) 评论(0) 推荐(0) 编辑
摘要: 7.建立一个多类分类系统 从规模化到特征提取、建模和评估,已经完成了简历分类系统的全部必要的步骤。现在将所有的东西组装在一起,应用到真实数据上以建立一个分类文本分类系统。对于此工作,将使用 scikit-learn 下载的 20 个新闻组数据集。这 20 个新闻组数据集包括分散在 20 个不同类别或 阅读全文
posted @ 2019-08-14 18:38 翡翠嫩白菜 阅读(820) 评论(0) 推荐(0) 编辑
摘要: 6.评估分类模型 训练,调优和建立模型是整个分析生命周期的重要部分,但更重要的是知道这些模型的性能如何。分类模型的性能一般基于模型对新数据的预测输出结果。通常情况下,使用测试数据集或保留数据集对性能进行测量,数据集中的数据不会以任何方式影响或训练分类器。测试数据集一般包括一些观测值和对应的标签。 使 阅读全文
posted @ 2019-08-14 18:38 翡翠嫩白菜 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 5.特征提取 有很多特征提取技术可以应用到文本数据上,但在深入学习之前,先思考特征的意义。为什么需要这些特征?它们又如何发挥作用?数据集中通常包含很多数据。一般情况下,数据集的行和列是数据集的不同特征或属性,每行或者每个观测值都是特殊的值。在机器学习术语中,特征是独一无二的,是数据集中每个观测值或数 阅读全文
posted @ 2019-08-14 18:37 翡翠嫩白菜 阅读(984) 评论(0) 推荐(0) 编辑
摘要: 4.文本规范化处理 下文中将定义一个规范化模块以处理文本文档规范化,并在后面建立分类器时使用这个处理模块。尽管有许多可用的技术,但是将坚持简化与直接原则,以便于更容易地一步步参照这里的实现。将在模块中实现和使用下面的规范化技术。 扩展缩写词。 通过词形还原实现文本处理规范化。 去除特殊字符与符号。 阅读全文
posted @ 2019-08-14 18:36 翡翠嫩白菜 阅读(816) 评论(0) 推荐(0) 编辑
摘要: 现在已经了解了自动文本分类的基本范围,下面将看一看建立自动文本分析系统的完整流程的蓝图。这包括在前面提到的训练和测试阶段必须要完成的一系列步骤。为建立文本分类系统,需要确认依据拥有数据来源并获取了这些数据,可以开始将这些数据送入系统。假设已经下载了数据集,并且准备好了数据,下面给出一个文本分类系统典 阅读全文
posted @ 2019-08-14 18:35 翡翠嫩白菜 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 2.自动文本分类 现在对于文本分类的定义和范围有所了解。当提到 “文本分类系统” 可以将文本文件划分到它们代表的类或类别时,也从该概念和数学上对文本分类进行了正式的定义。假设几个人通过浏览每个文本并进行分类完成文本分类任务,那么他们就是我们所讨论的文档分类系统的一部分。然而,一旦文档数量超过百万并且 阅读全文
posted @ 2019-08-14 18:35 翡翠嫩白菜 阅读(564) 评论(0) 推荐(0) 编辑
摘要: 理解文本语句和结构 下面会介绍和实现一些用于理解文本语法和结构的概念和技术。这些算法在 NLP 中非常有用,它通常在文本处理和标准化之后执行。主要关注一下技术: 词性(POS)标签。 浅层分析。 基于依存关系的解析。 基于成分结构的解析。 文章的作者针对读者是文本分析实践人员,可以执行并住处在实际问 阅读全文
posted @ 2019-08-14 18:34 翡翠嫩白菜 阅读(907) 评论(0) 推荐(1) 编辑