QueryMarsBo

2018年7月2日

摘要： 1、需求：对web访问日志中的各字段识别切分，去除日志中不合法的记录，根据KPI统计需求，生成各类访问请求过滤数据 2、实现代码： a) 定义一个bean，用来记录日志数据中的各数据字段 package cn.bigdta.hdfs.weblog; public class WebLogBean 阅读全文

posted @ 2018-07-02 13:57 QueryMarsBo 阅读(726) 评论(0) 推荐(0)

Hadoop_24_MapReduce实现QQ共同好友

摘要： 1.社交粉丝数据分析：解题思路：如果想要得到两两之间的共同好友，若A和B的共同好友是C，通过反向思考，可以求出C是哪些人的共同好友，然后将这些共同好友两两组合；第一步代码实现：运行结果：第二步代码实现：具有共同好友的人两两作为key输出运行结果：阅读全文

posted @ 2018-07-02 11:34 QueryMarsBo 阅读(456) 评论(0) 推荐(0)

Hadoop_23_MapReduce倒排索引实现

摘要： 1.1.倒排索引根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(invertedindex) 例如：单词——文档矩阵（将属性值放在前面作为索引） 1.2.MapReduce实现倒阅读全文

posted @ 2018-07-02 09:17 QueryMarsBo 阅读(350) 评论(0) 推荐(0)

2018年6月30日

Hadoop_22_MapReduce map端join实现方式解决数据倾斜（DistributedCache）

摘要： 1.Map端Join解决数据倾斜 1.Mapreduce中会将map输出的kv对，按照相同key分组(调用getPartition)，然后分发给不同的reducetask 2.Map输出结果的时候调用了Partitioner组件(返回分区号)，由它决定将数据放到哪个区中，默认的分组规则为：根据ke 阅读全文

posted @ 2018-06-30 09:24 QueryMarsBo 阅读(1109) 评论(0) 推荐(0)

2018年6月29日

Hadoop_21_MapReduce程序实现Join功能

摘要： 1.序列化与Writable接口 1.1.hadoop的序列化格式序列化和反序列化就是结构化对象和字节流之间的转换，主要用在内部进程的通讯和持久化存储方面 hadoop在节点间的内部通讯使用的是RPC，RPC协议把消息翻译成二进制字节流发送到远程节点，远程节点再通过反序列化把二进制流转成原始的信阅读全文

posted @ 2018-06-29 09:01 QueryMarsBo 阅读(316) 评论(0) 推荐(0)

2018年6月27日

Hadoop_20_MapReduce程序的运行模式

摘要： 1.MapReduce程序的运行模式 <!--[if gte mso 9]><xml><w:WordDocum 阅读全文

posted @ 2018-06-27 17:15 QueryMarsBo 阅读(179) 评论(0) 推荐(0)

2018年6月26日

Hadoop_19_MapReduce&&Yarn运行机制

摘要： 1.YARN的运行机制 1.1.概述： Yarn集群：负责海量数据运算时的资源调度，集群中的角色主要有：ResourceManager、NodeManager Yarn是一个资源调度(作业调度和集群资源管理)平台，负责为运算程序提供服务器运算资源(包括运行程序的jar包，配置文件，CPU，内存，I 阅读全文

posted @ 2018-06-26 14:25 QueryMarsBo 阅读(211) 评论(0) 推荐(0)

2018年6月25日

Hadoop_18_MapRduce 内部的shuffle机制

摘要： 1.Mapreduce的shuffle机制: Mapreduce中，map阶段处理的数据如何传递给Reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle 将maptask处理后的输出结果数据，分发给reducetask，并在分发的过程中，对数据按key进行了分区和排阅读全文

posted @ 2018-06-25 09:43 QueryMarsBo 阅读(309) 评论(0) 推荐(0)

2018年6月21日

Hadoop_16_MapRduce_MapTask并行度（切片）的决定机制

摘要： MapTask的并行度决定map阶段的任务处理并发度，进而影响到整个job的处理速度那么，mapTask并行实例是否越多越好呢？其并行度又是如何决定呢？Mapper数量由输入文件的数目、大小及配置参数决定； MapReduce将作业的整个运行过程分为两个阶段：Map阶段Reduce阶段。 Map阶阅读全文

posted @ 2018-06-21 11:54 QueryMarsBo 阅读(730) 评论(0) 推荐(0)

2018年6月20日

Hadoop_17_MapRduce_案例2_实现用户手机流量统计（ReduceTask并行度控制）

摘要：需求：1.统计每一个用户（手机号）所耗费的总上行流量、下行流量，总流量 1.数据如下：保存为.dat文件(因为以\t切分数据，文件格式必须合适) 2.技术实现过程： 1.首先将Map输入中的手机号，上行流量，下行流量数据抽取出来(每一行输入数据调用一次自定义map方法处理数据)，然后根据相同的ke 阅读全文

posted @ 2018-06-20 17:28 QueryMarsBo 阅读(1205) 评论(0) 推荐(1)

公告