没有神保佑的瓶子

2018年10月4日

摘要：摘要：是全面准确地反应某一文献中心内容的简单连贯的短文。同样使用余弦相似度获取自动摘要。算法步骤：获取需要摘要的文章对该文章进行词频统计对该文章进行分句（根据中文的标点符号，一般采用‘。’、‘？’、‘！’等进行分句）计算分句与文章之间的余弦相似度获取相似度最高的分据作为文章摘要。代码阅读全文

posted @ 2018-10-04 21:25 没有神保佑的瓶子阅读(489) 评论(0) 推荐(0)

数据挖掘——回归分析

摘要：回归分析（Regerssion Analysis） ——研究自变量与因变量之间关系形式的分析方法，它主要是通过建立因变量y 与影响他的自变量Xi 之间的回归模型，来预测因变量y 的发展趋势。一、回归分析的分类线性回归分析非线性回归分析二、回归分析的步骤：根据预测目标，确定自变量与因变量绘阅读全文

posted @ 2018-10-04 19:38 没有神保佑的瓶子阅读(4593) 评论(0) 推荐(0)

2018年9月28日

数据挖掘——相似文章推荐

摘要：相似文章推荐：在用户阅读某篇文章时，为用户推荐更多的与在读文章内容相类似的文章相关概念：推荐(Recommended)：指介绍好的人或事物，希望被任用或接受。数据挖掘领域，推荐包括相似推荐和协同过滤推荐。相似推荐(Similar Recommended)：指当用户表现出对某人或者某物的兴趣时阅读全文

posted @ 2018-09-28 22:07 没有神保佑的瓶子阅读(802) 评论(0) 推荐(0)

2018年9月25日

数据挖掘——关键字提取—sklearn的实际应用

摘要：前面的步骤都相似 #构建语料库 #使用jieba包进行分词，并将分词结果用空格分隔后再传回分词列表 #导入sklearn包中计算TF-IDF的模块，可以将停用词以参数的形式传入CountVectorizer模块得到numpy类的数据结构，需要进行转换 #将得到的TF-IDF结构转换成数组的形式，并阅读全文

posted @ 2018-09-25 23:47 没有神保佑的瓶子阅读(978) 评论(0) 推荐(0)

2018年9月24日

数据挖掘——关键字提取—基于sklearn包实现

摘要：什么是sklearn？ sklearn全名是Scikit-Learn，是基于Python的机器学习模块，基于BSD开源许可证，官方网址是：http://scikit-learn.org/stable Scikit-Learn的数据结构基于Numpy和Pandas模块，数据计算基于Scipy模块，数据阅读全文

posted @ 2018-09-24 22:38 没有神保佑的瓶子阅读(1357) 评论(0) 推荐(0)

2018年9月22日

数据挖掘——文本挖掘-关键字提取

摘要：基于jieba包的自动提取关键方法：jieba.analyse.extract_tags(content,topK=n) 具体思路：通过jieba包自带的extract_tags方法，在遍历读取文件内容时，获得每篇文档前n个关键字使用的包：过程：最终得到包含文件路径，文件内容，和每篇5个关键阅读全文

posted @ 2018-09-22 16:00 没有神保佑的瓶子阅读(2550) 评论(0) 推荐(0)

2018年9月15日

wxpy——聊天机器人的实现

摘要：一、安装wxpy包通过cmd中输入 pip install -U wxpy -i "https://pypi.doubanio.com/simple/" 进行安装二、在python中登录微信web版三、部分简单功能四、智能机器人回复需要在http://www.tuling123.com上注阅读全文

posted @ 2018-09-15 20:40 没有神保佑的瓶子阅读(3647) 评论(0) 推荐(0)

2018年9月13日

大数据技术原理与应用——分布式文件系统HDFS

摘要：分布式文件系统HDFS 分布式文件系统分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，一类叫主节点（Master Node）或被称为名称节点（NameNode）另一类叫从节点(Slave Node）阅读全文

posted @ 2018-09-13 23:16 没有神保佑的瓶子阅读(456) 评论(0) 推荐(0)

2018年9月11日

数据挖掘——文本挖掘-绘制词云

摘要：文本挖掘是将文本信息转化为可利用的数据的知识。一、创建“语料库” 语料库（Corpus）是我们要分析的所有文档的集合。将现有的文本文档的内容添加到一个新的语料库中。实现逻辑：将各文本文件分类放置在一个根目录下，通过遍历读取根目录下所有子目录中的所有文件，然后将读取结果赋值到一个数据框中，得阅读全文

posted @ 2018-09-11 23:00 没有神保佑的瓶子阅读(1364) 评论(0) 推荐(0)

2018年9月10日

Python数据挖掘——数据挖掘概况

摘要：数据挖掘概况什么是数据挖掘？数据挖掘（Data mining，简称DM），是指从大量数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。数据挖掘是一门交叉学科，覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销和其他学科等知识。数据挖掘与数据分析的阅读全文

posted @ 2018-09-10 22:01 没有神保佑的瓶子阅读(957) 评论(0) 推荐(0)

没有神保佑的瓶子

公告