摘要: 一、心跳机制 1、心跳报告概念 datanode会定时的向namenode发送心跳报告,目的是告诉namenode自己的存活状况以及可用空间。这个时间默认为3秒。 2、心跳报告具体作用 (1)向namenode汇报自己的存活状况以及可用空间 (2)向namenode发送块报告,每一个datanode 阅读全文
posted @ 2019-06-30 20:00 快乐的张小凡 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 第一节:hdfs简介 用于海量数据存储的,就是一个文件系统,分布式文件系统。 hadoop distributed filesystem 第二节:设计思想 一、分而治之 将超级大的文件切分成每一个小文件(数据块)进行存储在不同的节点上。同时切分的数据块太大了,容易造成集群中节点的存储的负载不均衡。太 阅读全文
posted @ 2019-06-30 19:54 快乐的张小凡 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 第一节:简介 hadoop基于普通廉价机的提供高可用、高扩展、高容错的分布式存储计算服务的。 hadoop设计的时候考虑到集群中任何一个节点任何时间都有可能出故障 hadoop已经帮你规避了。 第二节:hadoop产生背景 一、google 海量的网页数据如何存储的问题? 海量网页数据如何计算? 海 阅读全文
posted @ 2019-06-30 19:50 快乐的张小凡 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 第一节:数据 一、概念 数据就是数值,也就是我们通过观察、实验或计算得出的结果。数字、图片、 视频……. 二、分类 1、按照结构分 结构化数据:mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列,每一行对应的列的类型一致的。 非结构化数据:没有任何结构的数据,视频、图片、音频 阅读全文
posted @ 2019-06-30 19:48 快乐的张小凡 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 第一节:简介 一、概念 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 做数据收集的工具,主要用于日志文件的收集。是一 阅读全文
posted @ 2019-06-30 17:27 快乐的张小凡 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 第一节:简介 一、概念 Azkaban是一套简单的任务调度服务,整体包括三部分webserver、dbserver、executorserver。 Azkaban是linkin的开源项目,开发语言为Java。 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个 阅读全文
posted @ 2019-06-30 17:22 快乐的张小凡 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 第一节:简介 hive的优化 mapreduce的优化 1个reducetask对应的数据量最好不超过2G reducetask的个数最好不超过0.95*datanode的个数 第二节:优化手段 一、合理选择排序 二、合理做笛卡尔积 三、in/exists效率低 hive 高效实现手段 inner 阅读全文
posted @ 2019-06-30 17:19 快乐的张小凡 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 第一节:简介 一、数据倾斜 数据倾斜:由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。 大数据中不怕数据量大,怕数据倾斜。 hive的数据倾斜 mapreduce的数据倾斜。 二、主要表现形式 hive运行日志中 map 100% reduce 97% map 100% reduce 9 阅读全文
posted @ 2019-06-30 17:17 快乐的张小凡 阅读(867) 评论(0) 推荐(0) 编辑
摘要: 一、简介 hive运行的本质就是将hql语句,转换为一组操作符 operator。这里的 operator 代表 mapreduce操作和hdfs的操作,是hive执行hql语句的最小单位。 二、几个典型语句的分析 1、join 2、group by 3、order by shuffle 的排序,二 阅读全文
posted @ 2019-06-30 17:13 快乐的张小凡 阅读(195) 评论(0) 推荐(0) 编辑