2015 年 4月 22 日随笔档案 - 孟想阳光

2015年4月22日

摘要：主要是先看MapReduce模型有什么问题？第一：需要写很多底层的代码不够高效，第二：所有的事情必须要转化成两个操作Map/Reduce，这本身就很奇怪，也不能解决所有的情况。其实Spark出现就是为了解决上面的问题。介绍一些Spark的起源。发自 2010年Berkeley AMPLab，发表在h... 阅读全文

posted @ 2015-04-22 23:49 孟想阳光阅读(254) 评论(0) 推荐(0) 编辑

浅谈大数据和hadoop家族

摘要：按照时间的早晚从大数据出现之前的时代讲到现在。暂时按一个城市来比喻吧，反正Landscape的意思也大概是”风景“的意思。早在大数据概念出现以前就存在了各种各样的关于数学、统计学、算法、编程语言的研究、讨论和实践。这个时代，算法以及各种数学知识作为建筑的原料(比如钢筋、砖块)，编程语言作为粘合剂(比... 阅读全文

posted @ 2015-04-22 23:43 孟想阳光阅读(2920) 评论(0) 推荐(0) 编辑

PFP(Parallel FPGrowth)

摘要：分布式FP-tree1.首先还是对购物篮数据进行排序，计数，假设min_sup=3.去掉支持度小于3的项。2.按照fp-tree的画法，对第二列整理过的项建树，fcamp，fcabm,fb,cbp,fcamp,建立fp-tree如下：3.第三列是从右向左遍历第二列，得到至某点的路径，例如，到p的路径... 阅读全文

posted @ 2015-04-22 22:40 孟想阳光阅读(1088) 评论(0) 推荐(0) 编辑

FP-tree（growth）

摘要：针对Apriori算法的不足，韩家炜提出了FP-tree算法。思想如下：通过扫描购物篮数据，产生一个叫FP-tree的数据结构，通过该树就可以将频繁项集分析出来，而完全避免产生候选集（这在apriori算法中是最耗资源的）FP-tree树的产生过程：1.扫描整个事务数据库，产生如下L-list项目计... 阅读全文

posted @ 2015-04-22 20:58 孟想阳光阅读(986) 评论(0) 推荐(0) 编辑

apriori关联规则

摘要：挖掘数据集：贩物篮数据 频繁模式：频繁地出现在数据集中的模式，例如项集，子结构，子序列等 挖掘目标：频繁模式，频繁项集，关联规则等 关联规则：牛奶=>鸡蛋【支持度=2%，置信度=60%】 支持度：分析中的全部事务的2%同时贩买了牛奶和鸡蛋 置信度：贩买了牛奶的筒子有60%也贩买了鸡蛋 最... 阅读全文

posted @ 2015-04-22 20:53 孟想阳光阅读(1563) 评论(0) 推荐(0) 编辑

gephi安装后无法打开

摘要：具体解决的方法是找到gephi.conf文件（在“gephi安装目录\etc”中）文件，添加下面的一行，指定jdkhome的路径。jdkhome="C:\Program Files (x86)\Java\jre7”注意：一定必须是jre7，否则仍打不开阅读全文

posted @ 2015-04-22 18:20 孟想阳光阅读(1519) 评论(0) 推荐(0) 编辑

PeopleRank

摘要： PeopleRank:基于PageRank的理论，以每个微博账户的“关注”为链出链接，“粉丝”为链入链接的这种以人为核心的关系。PeopleRank假设条件：– 数量假设：如果一个用户节点接收到的其他用户“关注”的数量越多，那么这个用户越重要。– 质量假设：用户A的“粉丝”质量丌同，质量高的“粉丝”... 阅读全文

posted @ 2015-04-22 18:03 孟想阳光阅读(1077) 评论(0) 推荐(0) 编辑

hadoop自定义输入格式

摘要：一个任务的开始阶段是由InputFormat来决定的！1.在MapReduce框架中，InputFormat扮演的角色：– 将输入数据切分成逻辑的分片（Split），一个分片将被分配给一个单独的Mapper– 提供RecordReader的对象，该对象会从分片中读出对供Mapper处理1.1Inpu... 阅读全文

posted @ 2015-04-22 11:37 孟想阳光阅读(941) 评论(0) 推荐(0) 编辑

mahout0.6 api调用

摘要： 1.首先在解压缩的mahout文件中可以看到core包，该包是调用mahout api必须引入的jar包，另外，该包里的driver.classes.default.props中记录了每个命令跟调用类的映射对应关系。1.1 打开mahout源码包（可以通过maven部署在elicpse上），分析一下... 阅读全文

posted @ 2015-04-22 09:29 孟想阳光阅读(362) 评论(0) 推荐(0) 编辑

孟想阳光

公告