03 2015 档案

摘要:C4.5简介C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。由于I... 阅读全文
posted @ 2015-03-31 16:22 skyme 阅读(2294) 评论(1) 推荐(0) 编辑
摘要:讨论内容昨天的架构基本确定成如下图所示:针对此架构,大家分别提了不同的看法:【大侠】秦刘 9:53:58 工作节点的爬虫 应该就是普通的一个cmd形式的小程序,对不对? 【大侠】秦刘 9:54:38 webapp的作用应该只是这个 【大侠】大常 9:55:11 这个是什么的... 阅读全文
posted @ 2015-03-27 14:35 skyme 阅读(2198) 评论(0) 推荐(0) 编辑
摘要:SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。项目结构:依赖关系如下:webmagicwebmagic采用完全模块化的设计,功... 阅读全文
posted @ 2015-03-26 19:13 skyme 阅读(15860) 评论(1) 推荐(4) 编辑
摘要:文档分享流程今天在群里与大家讨论,想一个比较合理的分享流程。我想看到流程应该是挺清楚了,就不再多加文字方面的解释了!有想参与的可以一起进来讨论群号 194338168 想深度参与的加,不想参与的就别往里进了,现在需要的主要是开发和文档两类人。群会定期往出清人! (项目会开源出来) 阅读全文
posted @ 2015-03-25 17:51 skyme 阅读(1275) 评论(0) 推荐(0) 编辑
摘要:分布式爬虫架构经过新一轮的投票,项目的范围已经基本确定。大家决定 全力以付,集中攻克“分布式爬虫”。分布式爬虫架构1使用队列,即生产者,消费都模式。由于生产者将规则生成到队列,然后由爬虫集群(消费者)到队列中取规则,然后按优先级等规则进行爬取。分布式爬虫架构2类似于webmagic,webmagic... 阅读全文
posted @ 2015-03-24 11:34 skyme 阅读(8869) 评论(1) 推荐(1) 编辑
摘要:项目背景因为最近一直都在搞数据挖掘类的项目,且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法,以前也搞过一个开源的项目,当时只是想把权限集中化做一下,项目的名称和地址是:http://www.cnblogs.com/skyme/archive/2012/02/07/... 阅读全文
posted @ 2015-03-23 10:53 skyme 阅读(2620) 评论(0) 推荐(1) 编辑
摘要:Spark简介Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用... 阅读全文
posted @ 2015-03-14 23:48 skyme 阅读(17981) 评论(0) 推荐(2) 编辑
摘要:什么是RedisRedis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。Memcached和... 阅读全文
posted @ 2015-03-08 11:31 skyme 阅读(3152) 评论(0) 推荐(1) 编辑
摘要:收集web日志的目的Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。1、以改进web站点设计为目标,通过挖... 阅读全文
posted @ 2015-03-05 15:57 skyme 阅读(8574) 评论(0) 推荐(1) 编辑
摘要:什么是数据仓库?数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理:①数据仓库用于支持决策,面向... 阅读全文
posted @ 2015-03-03 11:36 skyme 阅读(6537) 评论(1) 推荐(7) 编辑

点击右上角即可分享
微信分享提示