翡翠嫩白菜 - 博客园

2019年11月8日

摘要：阅读全文

posted @ 2019-11-08 15:40 翡翠嫩白菜阅读(78) 评论(0) 推荐(0)

2019年11月7日

摘要： python中主要存在四种命名方式： 1、object #公用方法 2、_object #半保护 #被看作是“protect”，意思是只有类对象和子类对象自己能访问到这些变量，在模块或类外不可以使用，不能用’from module import *’导入。 #__object 是为了避免与子类的方阅读全文

posted @ 2019-11-07 15:09 翡翠嫩白菜阅读(202) 评论(0) 推荐(0)

2019年11月4日

python基础

摘要： /******对象******/ -python面向对象的语言-一切皆对象-程序运行当中，所有的数据都是存储到内存当中然后在运行-对象就是内存中专门从来存储数据的一块区域-对象实际上就是一个容器，专门用来存储数据 -像数值、字符串、布尔值、None都是对象对象的结构 - 每个对象中都要保存三种数据阅读全文

posted @ 2019-11-04 20:22 翡翠嫩白菜阅读(285) 评论(0) 推荐(0)

2019年10月31日

MySQL常用命令

摘要： /* 启动MySQL */ net start mysql /* 连接与断开服务器 */ mysql -h 地址 -P 端口 -u 用户名 -p 密码 /* 跳过权限验证登录MySQL */ mysqld --skip-grant-tables -- 修改root密码密码加密函数password( 阅读全文

posted @ 2019-10-31 11:43 翡翠嫩白菜阅读(230) 评论(0) 推荐(0)

2019年8月14日

文本分析笔记

摘要： Python 文本分析笔记中文停用词处理自行下载 shotwords.txt，代码如下： def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8 阅读全文

posted @ 2019-08-14 18:54 翡翠嫩白菜阅读(252) 评论(0) 推荐(0)

8.最佳电影聚类分析

摘要： 8.最佳电影聚类分析将使用电影简介作为原始数据，将总共 100 部流行电影进行聚类分析。IMDb 也称为互联网电影数据库（www.imdb.com），是一个在线的数据库，它提供有关电影、电子游戏和电视节目的大量详细信息。它聚集了电影和电视节目的评论以及简介，并有几个精选影片清单。原始数据地址 ht 阅读全文

posted @ 2019-08-14 18:54 翡翠嫩白菜阅读(3066) 评论(1) 推荐(1)

7.文档聚类

摘要： 7.文档聚类文档聚类或聚类分析是 NLP 和文本分析中一个有趣的领域，它应用了无监督的 ML 概念和技术。文档聚类的主要前提类似于文档分类，从文档的完整语料库开始，并根据文档的一些独特的特性、属性和特征将它们分为不同的组。文档分类需要预先标记的培训数据来构建模型，然后对文档进行分类。文档聚类则使用阅读全文

posted @ 2019-08-14 18:53 翡翠嫩白菜阅读(535) 评论(0) 推荐(0)

5.词项相似度分析

摘要： 5.词项相似度分析将从分析词项相似度入手，或者更准确的说，将从分析单独的单词标识相似度入手。虽然词项相似度分析没有在实际应用中大量使用，但是仍可以作为理解文本相似度分析的一个很好的出发点。当然，一些应用程序和用例（如自动填充程序、拼写检查和文本校正器）也会使用词项相似度分析中的部分技术来纠正拼写错阅读全文

posted @ 2019-08-14 18:52 翡翠嫩白菜阅读(813) 评论(0) 推荐(0)

6.文档相似度分析

摘要： 6.文档相似度分析将尝试分析文档之间的相似度指出。到目前为止，相比已经知道了文档的定义是可以由句子或文本段落组成的文本体。为了分析文档相似度，将使用 utils 模块的 build_feature_matrix() 函数从文档中提取特征。将使用文档的 TF-IDF 相似度对文档进行向量化，在之前的阅读全文

posted @ 2019-08-14 18:52 翡翠嫩白菜阅读(1646) 评论(0) 推荐(0)

文本规范化

摘要： 2.文本规范化再进一步开展分析或 NLP 之前，首先需要规范文本文档的语料库。为此，将再次使用规范化模块，此外还需要应用一些专门针对内容的新技术。在分析了许多语料库后，经过精心挑选了一些新词，并将它们更新禁了停用词名单，如下代码展示： stopword_list = nltk.corpus.st 阅读全文

posted @ 2019-08-14 18:51 翡翠嫩白菜阅读(434) 评论(0) 推荐(0)

公告