未来相濡以沫

2020年8月1日

摘要：一、概念 Reduce Join工作原理 1、Map端的主要工作是：为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。 2、Reduce端的主要工作是：在Reduce端以连接字段作为key的分组已经完成，阅读全文

posted @ 2020-08-01 20:14 未来相濡以沫阅读(245) 评论(0) 推荐(0)

Map Join与计数器

摘要：一、概念 1、Map Join： Map Join适用于一张表十分小、一张表很大的场景,然后两张表还有关联二、项目介绍 1、待处理文本 order.txt订单信息表里记录着订单ID，商品ID，订单销量(模拟当大表) pd.txt商品信息表里记录着商品ID，商品名称(模拟当小表，小表直接加入缓存) 阅读全文

posted @ 2020-08-01 19:40 未来相濡以沫阅读(215) 评论(0) 推荐(0)

Combiner合并

摘要：一、概念 1、Combiner是MapReduce程序中Mapper和Reduce之外的一种组件 2、Combiner组件的父类就是Reducer 3、Combiner和Reduce的区别主要在于运行位置 Combiner是在每一个MapTask所在的节点运行 Reduce是在接收全局所有Mappe 阅读全文

posted @ 2020-08-01 17:10 未来相濡以沫阅读(273) 评论(0) 推荐(0)

分区(partition)和全排序(WritableComparable)

摘要：一、概念 1、分区： Hadoop默认分区是根据key的hashCode对ReduceTask个数取模得到的，用户无法控制哪个key存储到哪个分区。想要控制哪个key存储到哪个分区，需要自定义类继承Partitioner<KEY, VALUE>，泛型KEY, VALUE分别对应Mapper里的输阅读全文

posted @ 2020-08-01 16:33 未来相濡以沫阅读(484) 评论(0) 推荐(0)

2020年7月26日

GroupingComparator分组(辅助分组)和二次排序

摘要：一、辅助排序：(GroupingComparator分组) 在Reduce端对key进行分组。应用于：在接受的key为bean对象时，想让一个或几个字段相同(全部字段比较不相同)的key进入到同一个reduce方法时，可以采用分组排序。二、举例说明 1、需求 (1)统计同一品牌下，卖最贵的手机型号阅读全文

posted @ 2020-07-26 20:41 未来相濡以沫阅读(219) 评论(0) 推荐(0)

HadoopHA(高可用集群)

摘要：一、介绍： 1、所谓HA（High Available），即高可用（7*24小时不中断服务） 2、实现高可用的关键是消除单点故障，即HDFS的nameNode和YARN的resourceManager，所以HA机制就是HDFS的HA和YARN的HA。由于一个HDFS集群由一个NameNode节点和阅读全文

posted @ 2020-07-26 18:19 未来相濡以沫阅读(572) 评论(0) 推荐(0)

2020年7月25日

Hadoop(MapReducer)面试题

摘要：一、单选题 1、Shuffle中Partitioner 分区发生在哪个过程( A ) A. 溢写过程 B. 本地Merge C. reduce函数阶段 D. map函数阶段 2、在整个maprduce运行阶段，数据是以( A )形式存在的 A. key/value B. LongWritable C 阅读全文

posted @ 2020-07-25 16:57 未来相濡以沫阅读(1013) 评论(0) 推荐(0)

hadoop用到的shell脚本

摘要： 1、查询当前hadoop集群中各服务器已经开启的全部服务 #!/bin/bash #查询集群各台服务器已经开启的服务 for ((i=3;i<6;i++)) do echo " Hadoop0$i " ssh Hadoop0$i "source /etc/profile && jps" done 加阅读全文

posted @ 2020-07-25 15:56 未来相濡以沫阅读(308) 评论(0) 推荐(0)

2020年7月18日

hadoop搭建完全分布式集群

摘要： 1. 新建虚拟机 2. 修改虚拟机的静态IP3. 修改主机名,添加主机和ip的映射关系4. 关闭防火墙（1-4 通过脚本完成）5. 创建jinghang用户 useradd jinghang passwd jinghang 6. 配置jinghang用户具有root权限 vim /etc/sudo 阅读全文

posted @ 2020-07-18 15:12 未来相濡以沫阅读(228) 评论(0) 推荐(0)

hadoop搭建伪分布式集群

摘要：一、伪分布式 1.新建虚拟机 2. 修改虚拟机的静态IP 3. 修改主机名 4. 关闭防火墙 5. 创建普通用户 useradd jinghang passwd jinghang 6. 配置普通用户具有root权限 vim /etc/sudoers 91 jinghang ALL=(ALL) NOP 阅读全文

posted @ 2020-07-18 14:18 未来相濡以沫阅读(160) 评论(0) 推荐(0)