随笔分类 -  Hadoop

MapReduce之Map Join
摘要:一 介绍 之所以存在Reduce Join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的,因为shuffle阶段要进行大量的数据传输。 Map Join是针对以下场景进行的优化:两个待连接表中,有一个表 阅读全文

posted @ 2018-12-15 23:16 PerfectData 阅读(402) 评论(0) 推荐(0) 编辑

MapReduce之Reduce Join
摘要:一 介绍 Reduce Join其主要思想如下: 在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签(tag), 比如:tag=0表示来自文件File1,tag=2表示来自文件File2。即:map阶段的主要任务是对不同文 阅读全文

posted @ 2018-12-15 22:17 PerfectData 阅读(591) 评论(0) 推荐(0) 编辑

MapReduce清洗日志数据统计PV量
摘要:查看结果 阅读全文

posted @ 2018-12-11 16:44 PerfectData 阅读(367) 评论(0) 推荐(0) 编辑

Hadoop MapReduce自定义数据类型
摘要:一 自定义数据类型的实现 1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出; 2.如果该数据需要作为主键key使用,或需要比较数值大小时,则需要实现WritalbeComparable接口,实现其方法write() 阅读全文

posted @ 2018-12-11 16:26 PerfectData 阅读(278) 评论(0) 推荐(0) 编辑

小型大数据平台搭建
摘要:目录 前言 一、 搭建环境 1.1集群规划 二、 集群的相关配置 2.1 新建用户hadoop 2.2 更改主机名 2.3 主机和IP做相关映射 2.4 SSH免密码登录 2.5 时间配置 2.6 整体安装目录安排 三、 Hadoop HA环境搭建 3.1 JDK配置 3.2 安装配置Zookeep 阅读全文

posted @ 2018-12-05 17:46 PerfectData 阅读(425) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示