摘要: MapReduce程序就是根据其特性对数据进行一个简单的逻辑处理,其中最为重要的一个特性就是根据key值将value值进行合并,其次就是在shuffle阶段有排序。遇到一个MR程序就是要巧妙利用合并、排序的特性。单表关联就是根据利用了合并的原理。先上测试数据child parentTom Luc... 阅读全文
posted @ 2014-10-30 11:01 林六天 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 实战数据:预期结果:测试数据:002|2014-09-10 00-09|东油大学002|2014-09-10 09-17|学苑小区001|2014-09-12 00-09|东油大学001|2014-09-12 09-17|新玛特002|2014-09-13 00-09|东油大学002|2014-09... 阅读全文
posted @ 2014-07-20 11:08 林六天 阅读(349) 评论(0) 推荐(0) 编辑
摘要: map/reduce实现单词计数 阅读全文
posted @ 2014-07-07 10:31 林六天 阅读(1055) 评论(0) 推荐(0) 编辑
摘要: mao/reduce实现求平均值 阅读全文
posted @ 2014-07-07 10:30 林六天 阅读(519) 评论(0) 推荐(0) 编辑
摘要: map/reduce实现数据去重 阅读全文
posted @ 2014-07-07 10:29 林六天 阅读(408) 评论(0) 推荐(0) 编辑
摘要: map/reduce实现多表链接 阅读全文
posted @ 2014-07-07 10:27 林六天 阅读(374) 评论(0) 推荐(0) 编辑
摘要: map/reduce实现 排序 阅读全文
posted @ 2014-07-07 10:25 林六天 阅读(551) 评论(0) 推荐(0) 编辑
摘要: map/reduce实现实现倒排索引 阅读全文
posted @ 2014-07-07 10:24 林六天 阅读(722) 评论(0) 推荐(0) 编辑
摘要: 我的环境:虚拟机-VMware虚拟系统-CentOS现实主机-win7具体设置步骤:一、设置现实主机(地址等不用额外设置,下面是我电脑正常上网的配置)将本地链接设置共享(这步很重要)二、配置虚拟机的虚拟网卡其中DNS和默认网关均为现实主机的IP地址。三、虚拟系统网络配置其中DNS和默认网关为虚拟网卡... 阅读全文
posted @ 2014-06-20 11:04 林六天 阅读(1942) 评论(0) 推荐(0) 编辑
摘要: 步骤一、下载mahout http://www.apache.org/dyn/closer.cgi/mahout/我下载的是mahout-distribution-0.9.tar.gz 16-Feb-2014 08:31 66M 步骤二、下载完成后放到Linux中并解压解压命令:tar -zxvf ... 阅读全文
posted @ 2014-06-19 11:03 林六天 阅读(173) 评论(0) 推荐(0) 编辑