摘要: 用户流量排序 实现编码: FlowBean类:把上行流量和下行流量以及总流量封装到一个bean中进行描述,注意要实现hadoop的序列化接口Writable package com.hp.mr; import java.io.DataInput; import java.io.DataOutput; 阅读全文
posted @ 2020-11-12 16:54 大可耐啊 阅读(110) 评论(0) 推荐(0) 编辑
摘要: ETL介绍和实现 1.ETL的介绍: 在上面的案例中我们的操作虽然完成,但是我们发现一个问题,都是对一个166mb大小的文件操作,效率是非常低下的,ETL是用来描述:将数据从来源段经过抽取(extract) 转换(transform) 加载(load) 到目的端的过程。 2.ETL的案例 针对日志文 阅读全文
posted @ 2020-11-10 19:03 大可耐啊 阅读(207) 评论(0) 推荐(0) 编辑
摘要: Hadoop的集群规划 前置安装 JDK安装 Hadoop集群部署 1. Hadoop的集群规划 前面我们都了解了Hadoop和Yarn的运行原理和架构, Hadoop包含:NameNode,DataNode,SeconderNameNode节点 Yarn包含:ResourceManage Node 阅读全文
posted @ 2020-11-07 18:11 大可耐啊 阅读(152) 评论(0) 推荐(0) 编辑
摘要: GetPageId类(通过日志获取PageId) package util; public class IPParser extends IPSeeker { // 地址 仅仅只是在ecplise环境中使用,部署在服务器上,需要先将qqwry.dat放在集群的各个节点某个有读取权限目录, // 然后 阅读全文
posted @ 2020-11-07 17:19 大可耐啊 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 页面浏览量统计功能实现: 统计页面量功能: 思路:统计页面浏览功能就是统计访问记录的总条数,因为还没学习SQL方式进行统计,使用MapReduce变成的方式,我要做的就是把一行记录做成一个固定的key,然后value复制为1,在Reduce阶段解析累脚操作 用到了GetPageId Mapper类: 阅读全文
posted @ 2020-11-07 16:53 大可耐啊 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 省份浏览量统计功能实现: 1.统计各个省份的浏览量 省份浏览器统计值ip库解析 省份浏览器统计之日志解析 省份浏览器统计之功能实现 前期准备: 4个工具类:GetPageId IPParser IPSeeker LogParser qqwry.dat Mapper类 //Mapper类 static 阅读全文
posted @ 2020-11-07 16:36 大可耐啊 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 用户流量: 把对应的电话号码的上行下行流量进行统计,最后显示出手机号 上行流量 下行流量 总流量 Mapper类: static class PhoneMapper extends Mapper<LongWritable, Text, Text, Text>{ protected void map( 阅读全文
posted @ 2020-11-07 16:24 大可耐啊 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 认识Combiner组件和Partitioner组件 实例场景 1.Combiner组件: 对比:不使用Combiner,那么所有的结果都是reduce完成,效率相对低下 为了进一步提升运算速度,使用Combiner组件,减少MapTasks输出的量及数据网络传输量每一个map可能会产生大量的输出, 阅读全文
posted @ 2020-11-07 16:13 大可耐啊 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 认识Mapreduce Mapreduce编程思想 Mapreduce执行流程 java版本WordCount实例 1. 简介: Mapreduce源于Google一遍论文,是谷歌Mapreduce的克隆版,他充分借鉴了分而治之的思想,讲一个数据处理过程拆分为主要的Map(映射)和Reduce(归并 阅读全文
posted @ 2020-11-02 13:58 大可耐啊 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 分布式系统执行介绍 常用命令的简介和使用 1 HDFS是一个分布式文件系统,而对于一个文件系统来讲,文件的存取是最频繁的操作,了解HDFS中读取和写入文件的流程更有利于我们理解HDFS分布式文件系统架构 通过HDFS读取文件 通过HDFS写入文件 HDFS的基本文件操作命令(需要切换到bin目录下执 阅读全文
posted @ 2020-10-29 19:26 大可耐啊 阅读(3570) 评论(0) 推荐(0) 编辑