摘要:
MapReduce程序就是根据其特性对数据进行一个简单的逻辑处理,其中最为重要的一个特性就是根据key值将value值进行合并,其次就是在shuffle阶段有排序。遇到一个MR程序就是要巧妙利用合并、排序的特性。单表关联就是根据利用了合并的原理。先上测试数据child parentTom Luc... 阅读全文
摘要:
实战数据:预期结果:测试数据:002|2014-09-10 00-09|东油大学002|2014-09-10 09-17|学苑小区001|2014-09-12 00-09|东油大学001|2014-09-12 09-17|新玛特002|2014-09-13 00-09|东油大学002|2014-09... 阅读全文
摘要:
map/reduce实现单词计数 阅读全文
摘要:
mao/reduce实现求平均值 阅读全文
摘要:
map/reduce实现数据去重 阅读全文
摘要:
map/reduce实现多表链接 阅读全文
摘要:
map/reduce实现 排序 阅读全文
摘要:
map/reduce实现实现倒排索引 阅读全文
摘要:
我的环境:虚拟机-VMware虚拟系统-CentOS现实主机-win7具体设置步骤:一、设置现实主机(地址等不用额外设置,下面是我电脑正常上网的配置)将本地链接设置共享(这步很重要)二、配置虚拟机的虚拟网卡其中DNS和默认网关均为现实主机的IP地址。三、虚拟系统网络配置其中DNS和默认网关为虚拟网卡... 阅读全文
摘要:
步骤一、下载mahout http://www.apache.org/dyn/closer.cgi/mahout/我下载的是mahout-distribution-0.9.tar.gz 16-Feb-2014 08:31 66M 步骤二、下载完成后放到Linux中并解压解压命令:tar -zxvf ... 阅读全文