打赏
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 22 下一页
摘要: 1、需求: 对web访问日志中的各字段识别切分,去除日志中不合法的记录,根据KPI统计需求,生成各类访问请求过滤数据 2、实现代码: a) 定义一个bean,用来记录日志数据中的各数据字段 package cn.bigdta.hdfs.weblog; public class WebLogBean 阅读全文
posted @ 2018-07-02 13:57 QueryMarsBo 阅读(701) 评论(0) 推荐(0) 编辑
摘要: 1.社交粉丝数据分析: 解题思路:如果想要得到两两之间的共同好友,若A和B的共同好友是C,通过反向思考,可以求出C是哪些人的共同好友,然后将这些共同好友 两两组合; 第一步代码实现: 运行结果: 第二步代码实现:具有共同好友的人两两作为key输出 运行结果: 阅读全文
posted @ 2018-07-02 11:34 QueryMarsBo 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 1.1.倒排索引 根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确 定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex) 例如:单词——文档矩阵(将属性值放在前面作为索引) 1.2.MapReduce实现倒 阅读全文
posted @ 2018-07-02 09:17 QueryMarsBo 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 1.Map端Join解决数据倾斜 1.Mapreduce中会将map输出的kv对,按照相同key分组(调用getPartition),然后分发给不同的reducetask 2.Map输出结果的时候调用了Partitioner组件(返回分区号),由它决定将数据放到哪个区中,默认的分组规 则为:根据ke 阅读全文
posted @ 2018-06-30 09:24 QueryMarsBo 阅读(1043) 评论(0) 推荐(0) 编辑
摘要: 1.序列化与Writable接口 1.1.hadoop的序列化格式 序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面 hadoop在节点间的内部通讯使用的是RPC,RPC协议把消息翻译成二进制字节流发送到远程节点,远程节点再通过反序 列化把二进制流转成原始的信 阅读全文
posted @ 2018-06-29 09:01 QueryMarsBo 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 1.MapReduce程序的运行模式 <!--[if gte mso 9]><xml><o:OfficeDocumentSettings></o:OfficeDocumentSettings></xml><![endif]--><!--[if gte mso 9]><xml><w:WordDocum 阅读全文
posted @ 2018-06-27 17:15 QueryMarsBo 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 1.YARN的运行机制 1.1.概述: Yarn集群:负责海量数据运算时的资源调度,集群中的角色主要有:ResourceManager、NodeManager Yarn是一个资源调度(作业调度和集群资源管理)平台,负责为运算程序提供服务器运算资源(包括运行 程序的jar包,配置文件,CPU,内存,I 阅读全文
posted @ 2018-06-26 14:25 QueryMarsBo 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 1.Mapreduce的shuffle机制: Mapreduce中,map阶段处理的数据如何传递给Reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle 将maptask处理后的输出结果数据,分发给reducetask,并在分发的过程中,对数据按key进行了分区和排 阅读全文
posted @ 2018-06-25 09:43 QueryMarsBo 阅读(282) 评论(0) 推荐(0) 编辑
摘要: MapTask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度那么,mapTask并行实例是否越多 越好呢?其并行度又是如何决定呢?Mapper数量由输入文件的数目、大小及配置参数决定; MapReduce将作业的整个运行过程分为两个阶段:Map阶段Reduce阶段。 Map阶 阅读全文
posted @ 2018-06-21 11:54 QueryMarsBo 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 需求:1.统计每一个用户(手机号)所耗费的总上行流量、下行流量,总流量 1.数据如下:保存为.dat文件(因为以\t切分数据,文件格式必须合适) 2.技术实现过程: 1.首先将Map输入中的手机号,上行流量,下行流量数据抽取出来(每一行输入数据调用一次自定义map方法处理数据), 然后根据相同的ke 阅读全文
posted @ 2018-06-20 17:28 QueryMarsBo 阅读(1098) 评论(0) 推荐(1) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 22 下一页