数据挖掘 - 随笔分类 - skyme

使用R画地图数据

摘要：用R画地图数据首先，从这里下载中国地图的GIS数据，这是一个压缩包，完全解压后包含三个文件（bou2_4p.dbf、bou2_4p.shp和bou2_4p.shx），将这三个文件解压到同一个目录下。用R绘制地图比较简单。比如画一下全国范围的区域，可以用如下代码： library(maptools 阅读全文

posted @ 2016-02-04 18:01 skyme 阅读(28786) 评论(3) 推荐(9)

跟我一起ggplot2（1）

摘要：ggplot2R的作图工具包，可以使用非常简单的语句实现非常复杂漂亮的效果。qplot加载qplotlibrary(ggplot2)# 测试数据集，ggplot2内置的钻石数据qplot(carat, price, data = diamonds)dsmall library("ggplot2")... 阅读全文

posted @ 2015-08-12 18:12 skyme 阅读(11438) 评论(0) 推荐(0)

一文搞懂HMM（隐马尔可夫模型）

摘要：什么是熵(Entropy)简单来说，熵是表示物质系统状态的一种度量，用它老表征系统的无序程度。熵越大，系统越无序，意味着系统结构和运动的不确定和无规则；反之，，熵越小，系统越有序，意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化，组织化，复杂化状态的一种度量。熵... 阅读全文

posted @ 2015-07-16 14:52 skyme 阅读(391201) 评论(41) 推荐(281)

跟我一起hadoop（1）-hadoop2.6安装与使用

摘要：伪分布式hadoop的三种安装方式：Local (Standalone) ModePseudo-Distributed ModeFully-Distributed Mode安装之前需要$ sudo apt-get install ssh $ sudo apt-get install rsync详见... 阅读全文

posted @ 2015-06-28 21:31 skyme 阅读(17989) 评论(1) 推荐(3)

众推项目的最近讨论

摘要：openKM想问下有没有这样的开源文件管理系统，所有人都可以上传文件，只有有权限的管理员才可以下载他人的文件？不知道openkm能不能做到。OpenKM是一个开放源代码的电子文档管理系统，它的特点是可用于大型公司或是中小企业，适应性比较强。并且在知识管理方面的加工，提供了更加灵活和成本较低的替代... 阅读全文

posted @ 2015-04-30 13:22 skyme 阅读(3277) 评论(0) 推荐(0)

基于java的分布式爬虫

摘要：分类分布式网络爬虫包含多个爬虫，每个爬虫需要完成的任务和单个的爬行器类似，它们从互联网上下载网页，并把网页保存在本地的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务，可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中，或者分散在不同的地... 阅读全文

posted @ 2015-04-20 10:35 skyme 阅读(29322) 评论(5) 推荐(8)

跟我一起数据挖掘（23）——C4.5

摘要：C4.5简介C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。由于I... 阅读全文

posted @ 2015-03-31 16:22 skyme 阅读(2315) 评论(1) 推荐(0)

众推架构的进一步讨论

摘要：讨论内容昨天的架构基本确定成如下图所示：针对此架构，大家分别提了不同的看法：【大侠】秦刘 9:53:58 工作节点的爬虫应该就是普通的一个cmd形式的小程序，对不对？【大侠】秦刘 9:54:38 webapp的作用应该只是这个【大侠】大常 9:55:11 这个是什么的... 阅读全文

posted @ 2015-03-27 14:35 skyme 阅读(2211) 评论(0) 推荐(0)

分布式爬虫技术架构

摘要：SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。项目结构：依赖关系如下：webmagicwebmagic采用完全模块化的设计，功... 阅读全文

posted @ 2015-03-26 19:13 skyme 阅读(15909) 评论(1) 推荐(4)

众推项目的文档分享流程

摘要：文档分享流程今天在群里与大家讨论，想一个比较合理的分享流程。我想看到流程应该是挺清楚了，就不再多加文字方面的解释了！有想参与的可以一起进来讨论群号 194338168 想深度参与的加，不想参与的就别往里进了，现在需要的主要是开发和文档两类人。群会定期往出清人！（项目会开源出来）阅读全文

posted @ 2015-03-25 17:51 skyme 阅读(1290) 评论(0) 推荐(0)

众推平台架构——分布式爬虫

摘要：分布式爬虫架构经过新一轮的投票，项目的范围已经基本确定。大家决定全力以付，集中攻克“分布式爬虫”。分布式爬虫架构1使用队列，即生产者，消费都模式。由于生产者将规则生成到队列，然后由爬虫集群（消费者）到队列中取规则，然后按优先级等规则进行爬取。分布式爬虫架构2类似于webmagic，webmagic... 阅读全文

posted @ 2015-03-24 11:34 skyme 阅读(8921) 评论(1) 推荐(1)

数据挖掘开源项目立项

摘要：项目背景因为最近一直都在搞数据挖掘类的项目，且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法，以前也搞过一个开源的项目，当时只是想把权限集中化做一下，项目的名称和地址是：http://www.cnblogs.com/skyme/archive/2012/02/07/... 阅读全文

posted @ 2015-03-23 10:53 skyme 阅读(2644) 评论(0) 推荐(1)

跟我一起数据挖掘（22）——spark入门

摘要：Spark简介Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用... 阅读全文

posted @ 2015-03-14 23:48 skyme 阅读(18027) 评论(0) 推荐(2)

跟我一起数据挖掘（21）——redis

摘要：什么是RedisRedis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。从2010年3月15日起，Redis的开发工作由VMware主持。从2013年5月开始，Redis的开发由Pivotal赞助。Memcached和... 阅读全文

posted @ 2015-03-08 11:31 skyme 阅读(3171) 评论(0) 推荐(1)

跟我一起数据挖掘（20）——网站日志挖掘

摘要：收集web日志的目的Web日志挖掘是指采用数据挖掘技术，对站点用户访问Web服务器过程中产生的日志数据进行分析处理，从而发现Web用户的访问模式和兴趣爱好等，这些信息对站点建设潜在有用的可理解的未知信息和知识，用于分析站点的被访问情况，辅助站点管理和决策支持等。1、以改进web站点设计为目标，通过挖... 阅读全文

posted @ 2015-03-05 15:57 skyme 阅读(8614) 评论(0) 推荐(1)

跟我一起数据挖掘（19）——什么是数据挖掘（2）

摘要：什么是数据仓库？数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理：①数据仓库用于支持决策,面向... 阅读全文

posted @ 2015-03-03 11:36 skyme 阅读(6587) 评论(1) 推荐(7)

cloudsky

QQ群交流：微服务架构实战 181942601 nlp研究与讨论 1群598640522
大数据_人工智能交流621943289

随笔分类 - 数据挖掘

公告

cloudsky

QQ群交流：微服务架构实战 181942601 nlp研究与讨论 1群598640522 大数据_人工智能交流621943289

随笔分类 - 数据挖掘

公告

QQ群交流：微服务架构实战 181942601 nlp研究与讨论 1群598640522
大数据_人工智能交流621943289