摘要:
Hive Hive概述 Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现MapReduce统计,不必开发专门的MapReduce应用,十 阅读全文
摘要:
Zookeeper 概述 Zookeeper是一个分布式的协调服务框架 Zookeeper可以解决分布式环境常见的问题 集群管理、统一命名服务 信息配置管理 分布式锁 Zookeeper要解决的问题 zookeeper旨在在分布式应用中,提供可靠的、可扩展的、分布式的、可配置的协调机制来管理整个集群 阅读全文
摘要:
MR调优策略 1.减少数据的传输量 2.尽量使用内存 3.减少磁盘I/O的次数 4.增大任务并行数 5.除此之外还有根据自己集群及网络的实际情况来调优。 Map Side Join--解决join时数据倾斜问题 如何解决数据倾斜是一个常谈的话题,不同的框架有不同的处理方案,如果是MR框架的话,我们可 阅读全文
摘要:
Shuffle(洗牌) 图 map 1.Map Task的输出k v,一开始会进入溢写缓冲区中,对数据做处理,比如分区、排序等操作。 2.有几个Map Task,就有几个对应的溢写缓冲区(分区) 3.溢写缓冲区默认是100MB,溢写阈值:0.8。(都可通过配置文件调节) 4.当缓冲区中的数据达到溢写 阅读全文
摘要:
job任务执行流程 1.run job阶段 ①收集整个job的环境信息(比如通过conf设定的参数,还有mapperClass,reducerClass,以及输出kv类型) ②会计算当前job的切片数量(切片不同等切块,用FileSplit:path start length) ③检测环境信息的合法 阅读全文
摘要:
Yarn 资源调度框架 实现对资源的细粒度封装(cpu,内存,带宽) 此外,还可以通过yarn协调多种不同计算框架(MR,Spark) 概述 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器 阅读全文