摘要: 主要是先看MapReduce模型有什么问题?第一:需要写很多底层的代码不够高效,第二:所有的事情必须要转化成两个操作Map/Reduce,这本身就很奇怪,也不能解决所有的情况。其实Spark出现就是为了解决上面的问题。介绍一些Spark的起源。发自 2010年Berkeley AMPLab,发表在h... 阅读全文
posted @ 2015-04-22 23:49 孟想阳光 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 按照时间的早晚从大数据出现之前的时代讲到现在。暂时按一个城市来比喻吧,反正Landscape的意思也大概是”风景“的意思。早在大数据概念出现以前就存在了各种各样的关于数学、统计学、算法、编程语言的研究、讨论和实践。这个时代,算法以及各种数学知识作为建筑的原料(比如钢筋、砖块),编程语言作为粘合剂(比... 阅读全文
posted @ 2015-04-22 23:43 孟想阳光 阅读(2920) 评论(0) 推荐(0) 编辑
摘要: 分布式FP-tree1.首先还是对购物篮数据进行排序,计数,假设min_sup=3.去掉支持度小于3的项。2.按照fp-tree的画法,对第二列整理过的项建树,fcamp,fcabm,fb,cbp,fcamp,建立fp-tree如下:3.第三列是从右向左遍历第二列,得到至某点的路径,例如,到p的路径... 阅读全文
posted @ 2015-04-22 22:40 孟想阳光 阅读(1088) 评论(0) 推荐(0) 编辑
摘要: 针对Apriori算法的不足,韩家炜提出了FP-tree算法。思想如下:通过扫描购物篮数据,产生一个叫FP-tree的数据结构,通过该树就可以将频繁项集分析出来,而完全避免产生候选集(这在apriori算法中是最耗资源的)FP-tree树的产生过程:1.扫描整个事务数据库,产生如下L-list项目计... 阅读全文
posted @ 2015-04-22 20:58 孟想阳光 阅读(986) 评论(0) 推荐(0) 编辑
摘要: 挖掘数据集:贩物篮数据 频繁模式:频繁地出现在数据集中的模式,例如项集,子结构,子序列等 挖掘目标:频繁模式,频繁项集,关联规则等 关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】 支持度:分析中的全部事务的2%同时贩买了牛奶和鸡蛋 置信度:贩买了牛奶的筒子有60%也贩买了鸡蛋 最... 阅读全文
posted @ 2015-04-22 20:53 孟想阳光 阅读(1563) 评论(0) 推荐(0) 编辑
摘要: 具体解决的方法是找到gephi.conf文件(在“gephi安装目录\etc”中)文件,添加下面的一行,指定jdkhome的路径。jdkhome="C:\Program Files (x86)\Java\jre7”注意:一定必须是jre7,否则仍打不开 阅读全文
posted @ 2015-04-22 18:20 孟想阳光 阅读(1519) 评论(0) 推荐(0) 编辑
摘要: PeopleRank:基于PageRank的理论,以每个微博账户的“关注”为链出链接,“粉丝”为链入链接的这种以人为核心的关系。PeopleRank假设条件:– 数量假设:如果一个用户节点接收到的其他用户“关注”的数量越多,那么这个用户越重要。– 质量假设:用户A的“粉丝”质量丌同,质量高的“粉丝”... 阅读全文
posted @ 2015-04-22 18:03 孟想阳光 阅读(1077) 评论(0) 推荐(0) 编辑
摘要: 一个任务的开始阶段是由InputFormat来决定的!1.在MapReduce框架中,InputFormat扮演的角色:– 将输入数据切分成逻辑的分片(Split),一个分片将被分配给一个单独的Mapper– 提供RecordReader的对象,该对象会从分片中读出对供Mapper处理1.1Inpu... 阅读全文
posted @ 2015-04-22 11:37 孟想阳光 阅读(941) 评论(0) 推荐(0) 编辑
摘要: 1.首先在解压缩的mahout文件中可以看到core包,该包是调用mahout api必须引入的jar包,另外,该包里的driver.classes.default.props中记录了每个命令跟调用类的映射对应关系。1.1 打开mahout源码包(可以通过maven部署在elicpse上),分析一下... 阅读全文
posted @ 2015-04-22 09:29 孟想阳光 阅读(362) 评论(0) 推荐(0) 编辑