摘要: 阅读全文
posted @ 2019-11-08 15:40 翡翠嫩白菜 阅读(74) 评论(0) 推荐(0) 编辑
摘要: python中主要存在四种命名方式: 1、object #公用方法 2、_object #半保护 #被看作是“protect”,意思是只有类对象和子类对象自己能访问到这些变量, 在模块或类外不可以使用,不能用’from module import *’导入。 #__object 是为了避免与子类的方 阅读全文
posted @ 2019-11-07 15:09 翡翠嫩白菜 阅读(189) 评论(0) 推荐(0) 编辑
摘要: /******对象******/ -python面向对象的语言-一切皆对象-程序运行当中,所有的数据都是存储到内存当中然后在运行-对象就是内存中专门从来存储数据的一块区域-对象实际上就是一个容器,专门用来存储数据 -像数值、字符串、布尔值、None都是对象对象的结构 - 每个对象中都要保存三种数据 阅读全文
posted @ 2019-11-04 20:22 翡翠嫩白菜 阅读(246) 评论(0) 推荐(0) 编辑
摘要: /* 启动MySQL */ net start mysql /* 连接与断开服务器 */ mysql -h 地址 -P 端口 -u 用户名 -p 密码 /* 跳过权限验证登录MySQL */ mysqld --skip-grant-tables -- 修改root密码 密码加密函数password( 阅读全文
posted @ 2019-10-31 11:43 翡翠嫩白菜 阅读(214) 评论(0) 推荐(0) 编辑
摘要: Python 文本分析 笔记 中文停用词处理 自行下载 shotwords.txt,代码如下: def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8 阅读全文
posted @ 2019-08-14 18:54 翡翠嫩白菜 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 8.最佳电影聚类分析 将使用电影简介作为原始数据,将总共 100 部流行电影进行聚类分析。IMDb 也称为互联网电影数据库(www.imdb.com),是一个在线的数据库,它提供有关电影、电子游戏和电视节目的大量详细信息。它聚集了电影和电视节目的评论以及简介,并有几个精选影片清单。原始数据地址 ht 阅读全文
posted @ 2019-08-14 18:54 翡翠嫩白菜 阅读(2791) 评论(1) 推荐(1) 编辑
摘要: 7.文档聚类 文档聚类或聚类分析是 NLP 和文本分析中一个有趣的领域,它应用了无监督的 ML 概念和技术。文档聚类的主要前提类似于文档分类,从文档的完整语料库开始,并根据文档的一些独特的特性、属性和特征将它们分为不同的组。文档分类需要预先标记的培训数据来构建模型,然后对文档进行分类。文档聚类则使用 阅读全文
posted @ 2019-08-14 18:53 翡翠嫩白菜 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 5.词项相似度分析 将从分析词项相似度入手,或者更准确的说,将从分析单独的单词标识相似度入手。虽然词项相似度分析没有在实际应用中大量使用,但是仍可以作为理解文本相似度分析的一个很好的出发点。当然,一些应用程序和用例(如自动填充程序、拼写检查和文本校正器)也会使用词项相似度分析中的部分技术来纠正拼写错 阅读全文
posted @ 2019-08-14 18:52 翡翠嫩白菜 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 6.文档相似度分析 将尝试分析文档之间的相似度指出。到目前为止,相比已经知道了文档的定义是可以由句子或文本段落组成的文本体。为了分析文档相似度,将使用 utils 模块的 build_feature_matrix() 函数从文档中提取特征。将使用文档的 TF-IDF 相似度对文档进行向量化,在之前的 阅读全文
posted @ 2019-08-14 18:52 翡翠嫩白菜 阅读(1520) 评论(0) 推荐(0) 编辑
摘要: 2.文本规范化 再进一步开展分析或 NLP 之前,首先需要规范文本文档的语料库。为此,将再次使用规范化模块,此外还需要应用一些专门针对内容的新技术。 在分析了许多语料库后,经过精心挑选了一些新词,并将它们更新禁了停用词名单,如下代码展示: stopword_list = nltk.corpus.st 阅读全文
posted @ 2019-08-14 18:51 翡翠嫩白菜 阅读(401) 评论(0) 推荐(0) 编辑