摘要: 摘要:是全面准确地反应某一文献中心内容的简单连贯的短文。 同样使用余弦相似度获取自动摘要。 算法步骤: 获取需要摘要的文章 对该文章进行词频统计 对该文章进行分句(根据中文的标点符号,一般采用‘。’、‘?’、‘!’等进行分句) 计算分句与文章之间的余弦相似度 获取相似度最高的分据作为文章摘要。 代码 阅读全文
posted @ 2018-10-04 21:25 没有神保佑的瓶子 阅读(468) 评论(0) 推荐(0) 编辑
摘要: 回归分析(Regerssion Analysis) ——研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量y 与影响他的自变量Xi 之间的回归模型,来预测因变量y 的发展趋势。 一、回归分析的分类 线性回归分析 非线性回归分析 二、回归分析的步骤: 根据预测目标,确定自变量与因变量 绘 阅读全文
posted @ 2018-10-04 19:38 没有神保佑的瓶子 阅读(4450) 评论(0) 推荐(0) 编辑
摘要: 相似文章推荐:在用户阅读某篇文章时,为用户推荐更多的与在读文章内容相类似的文章 相关概念: 推荐(Recommended):指介绍好的人或事物,希望被任用或接受。数据挖掘领域,推荐包括相似推荐和协同过滤推荐。 相似推荐(Similar Recommended): 指当用户表现出对某人或者某物的兴趣时 阅读全文
posted @ 2018-09-28 22:07 没有神保佑的瓶子 阅读(745) 评论(0) 推荐(0) 编辑
摘要: 前面的步骤都相似 #构建语料库 #使用jieba包进行分词,并将分词结果用空格分隔后再传回分词列表 #导入sklearn包中计算TF-IDF的模块,可以将停用词以参数的形式传入CountVectorizer模块 得到numpy类的数据结构,需要进行转换 #将得到的TF-IDF结构转换成数组的形式,并 阅读全文
posted @ 2018-09-25 23:47 没有神保佑的瓶子 阅读(912) 评论(0) 推荐(0) 编辑
摘要: 什么是sklearn? sklearn全名是Scikit-Learn,是基于Python的机器学习模块,基于BSD开源许可证,官方网址是:http://scikit-learn.org/stable Scikit-Learn的数据结构基于Numpy和Pandas模块,数据计算基于Scipy模块,数据 阅读全文
posted @ 2018-09-24 22:38 没有神保佑的瓶子 阅读(1277) 评论(0) 推荐(0) 编辑
摘要: 基于jieba包的自动提取 关键方法:jieba.analyse.extract_tags(content,topK=n) 具体思路:通过jieba包自带的extract_tags方法,在遍历读取文件内容时,获得每篇文档前n个关键字 使用的包: 过程: 最终得到包含文件路径,文件内容,和每篇5个关键 阅读全文
posted @ 2018-09-22 16:00 没有神保佑的瓶子 阅读(2492) 评论(0) 推荐(0) 编辑
摘要: 一、安装wxpy包 通过cmd中输入 pip install -U wxpy -i "https://pypi.doubanio.com/simple/" 进行安装 二、在python中登录微信web版 三、部分简单功能 四、智能机器人回复 需要在http://www.tuling123.com上注 阅读全文
posted @ 2018-09-15 20:40 没有神保佑的瓶子 阅读(3593) 评论(0) 推荐(0) 编辑
摘要: 分布式文件系统HDFS 分布式文件系统 分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,一类叫主节点(Master Node)或被称为名称节点(NameNode) 另一类叫从节点(Slave Node) 阅读全文
posted @ 2018-09-13 23:16 没有神保佑的瓶子 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 文本挖掘是将文本信息转化为可利用的数据的知识。 一、创建“语料库” 语料库(Corpus)是我们要分析的所有文档的集合。 将现有的文本文档的内容添加到一个新的语料库中。 实现逻辑: 将各文本文件分类放置在一个根目录下,通过遍历读取根目录下所有子目录中的所有文件, 然后将读取结果赋值到一个数据框中,得 阅读全文
posted @ 2018-09-11 23:00 没有神保佑的瓶子 阅读(1328) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘概况 什么是数据挖掘? 数据挖掘(Data mining,简称DM),是指从大量数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。 数据挖掘是一门交叉学科,覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销和其他学科等知识。 数据挖掘与数据分析的 阅读全文
posted @ 2018-09-10 22:01 没有神保佑的瓶子 阅读(927) 评论(0) 推荐(0) 编辑