Hadoop - 随笔分类 - PerfectData

MapReduce之Map Join

摘要：一介绍之所以存在Reduce Join，是因为在map阶段不能获取所有需要的join字段，即：同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的，因为shuffle阶段要进行大量的数据传输。 Map Join是针对以下场景进行的优化：两个待连接表中，有一个表阅读全文

posted @ 2018-12-15 23:16 PerfectData 阅读(423) 评论(0) 推荐(0)

MapReduce之Reduce Join

摘要：一介绍 Reduce Join其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签（tag），比如：tag=0表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不同文阅读全文

posted @ 2018-12-15 22:17 PerfectData 阅读(601) 评论(0) 推荐(0)

MapReduce清洗日志数据统计PV量

摘要：查看结果阅读全文

posted @ 2018-12-11 16:44 PerfectData 阅读(386) 评论(0) 推荐(0)

Hadoop MapReduce自定义数据类型

摘要：一自定义数据类型的实现 1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出； 2.如果该数据需要作为主键key使用，或需要比较数值大小时，则需要实现WritalbeComparable接口,实现其方法write() 阅读全文

posted @ 2018-12-11 16:26 PerfectData 阅读(309) 评论(0) 推荐(0)

小型大数据平台搭建

摘要：目录前言一、搭建环境 1.1集群规划二、集群的相关配置 2.1 新建用户hadoop 2.2 更改主机名 2.3 主机和IP做相关映射 2.4 SSH免密码登录 2.5 时间配置 2.6 整体安装目录安排三、 Hadoop HA环境搭建 3.1 JDK配置 3.2 安装配置Zookeep 阅读全文

posted @ 2018-12-05 17:46 PerfectData 阅读(449) 评论(0) 推荐(0)

Perfect Data

随笔分类 - Hadoop

MapReduce之Map Join

MapReduce之Reduce Join

MapReduce清洗日志数据统计PV量

Hadoop MapReduce自定义数据类型

小型大数据平台搭建

导航

公告