摘要: Hive Hive概述 Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现MapReduce统计,不必开发专门的MapReduce应用,十 阅读全文
posted @ 2019-03-19 12:35 Striver。 阅读(210) 评论(0) 推荐(0) 编辑
摘要: Zookeeper 概述 Zookeeper是一个分布式的协调服务框架 Zookeeper可以解决分布式环境常见的问题 集群管理、统一命名服务 信息配置管理 分布式锁 Zookeeper要解决的问题 zookeeper旨在在分布式应用中,提供可靠的、可扩展的、分布式的、可配置的协调机制来管理整个集群 阅读全文
posted @ 2019-03-19 12:31 Striver。 阅读(231) 评论(0) 推荐(0) 编辑
摘要: MR调优策略 1.减少数据的传输量 2.尽量使用内存 3.减少磁盘I/O的次数 4.增大任务并行数 5.除此之外还有根据自己集群及网络的实际情况来调优。 Map Side Join--解决join时数据倾斜问题 如何解决数据倾斜是一个常谈的话题,不同的框架有不同的处理方案,如果是MR框架的话,我们可 阅读全文
posted @ 2019-03-19 12:28 Striver。 阅读(188) 评论(0) 推荐(0) 编辑
摘要: Shuffle(洗牌) 图 map 1.Map Task的输出k v,一开始会进入溢写缓冲区中,对数据做处理,比如分区、排序等操作。 2.有几个Map Task,就有几个对应的溢写缓冲区(分区) 3.溢写缓冲区默认是100MB,溢写阈值:0.8。(都可通过配置文件调节) 4.当缓冲区中的数据达到溢写 阅读全文
posted @ 2019-03-19 12:27 Striver。 阅读(456) 评论(0) 推荐(0) 编辑
摘要: job任务执行流程 1.run job阶段 ①收集整个job的环境信息(比如通过conf设定的参数,还有mapperClass,reducerClass,以及输出kv类型) ②会计算当前job的切片数量(切片不同等切块,用FileSplit:path start length) ③检测环境信息的合法 阅读全文
posted @ 2019-03-19 12:26 Striver。 阅读(816) 评论(0) 推荐(0) 编辑
摘要: Yarn 资源调度框架 实现对资源的细粒度封装(cpu,内存,带宽) 此外,还可以通过yarn协调多种不同计算框架(MR,Spark) 概述 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器 阅读全文
posted @ 2019-03-19 12:25 Striver。 阅读(288) 评论(0) 推荐(0) 编辑
摘要: MapReducer 概述 是一个分布式的计算框架(编程模型),最初由由谷歌的工程师开发,基于GFS的分布式计算框架。后来Cutting根据《Google Mapreduce》,设计了基于HDFS的Mapreduce分布式计算框架。 MR框架对于程序员的最大意义在于,不需要掌握分布式计算编程,不需要 阅读全文
posted @ 2019-02-19 12:25 Striver。 阅读(173) 评论(0) 推荐(0) 编辑
摘要: java基础-2 面向对象 定义 面向对象是一种思维方式,相对于面向过程​面向过程注重流程中的每一步,清楚流程中的每一个细节​面向对象注重的是对象,有了对象就有对象的一届​自己动手做--面向过程,找其他人做面向对象​面向对象和面向过程各有优劣,复杂事务面向对象,简单事务面向过程​面向对象基于面向过程 阅读全文
posted @ 2019-01-22 20:36 Striver。 阅读(269) 评论(0) 推荐(0) 编辑
摘要: <!doctype html>java基础1 java基础 1995由SUN公司提供的,互联网首选的语言,是大数据的基本语言。 简单/安全/完全面向对象/跨平台 跨平台 基于JVM。针对不同的操作系统开发了不同的虚拟机,将java程序交给虚拟机,虚拟机转化为当前操作系统所能理解的指令,然后操作系统再 阅读全文
posted @ 2019-01-11 11:13 Striver。 阅读(188) 评论(0) 推荐(0) 编辑
摘要: Hadoop--HDFS Edits和Fsimage机制详解 概述 fsimage镜像文件包含了整个HDFS文件系统的所有目录和文件的indoe(节点)信息,比如:/node01/node,会记录每个节点nodeid,以及节点之间父子路径。 以及文件名,文件大小,文件被切成几块,每个数据块描述信息、 阅读全文
posted @ 2018-12-20 13:48 Striver。 阅读(452) 评论(0) 推荐(0) 编辑