摘要: Kafka中的ISR、AR又代表什么? ISR:与leader保持同步的follower集合;AR:分区的所有副本。 Kafka中的HW、LEO等分别代表什么 LEO:每个副本的最后条消息的offset;HW:一个分区中所有副本最小的offset。 Kafka中是怎么体现消息顺序性的? 每个分区内, 阅读全文
posted @ 2020-08-26 16:22 loading--- 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 一、Producer API 1.1 消息发送流程 Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和sender线程,以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulato 阅读全文
posted @ 2020-08-26 16:20 loading--- 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 一、Kafka概述 Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 1.1 MQ应用场景和优缺点 https://hucheng.blog.csdn.net/article/details/102961102 1.2 消息队列的两种模式 ①点对点模式(一对一,消 阅读全文
posted @ 2020-08-26 16:19 loading--- 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 一、Flume监控之Ganglia 1.1 前言 Ganglia是UC Berkeley发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为gmond的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这 阅读全文
posted @ 2020-08-07 09:57 loading--- 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 一、Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。 1.2 Flume的优点 可以和任意存储 阅读全文
posted @ 2020-08-07 09:56 loading--- 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 一、Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM EMP;在这种情况下,Hive可以简单地读取EMP对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中hi 阅读全文
posted @ 2020-08-07 09:54 loading--- 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 一、函数 1.1 系统内置函数 查看系统自带的函数:hive> show functions; 显示自带的函数的用法:hive> desc function upper; 详细显示自带的函数的用法:hive> desc function extended upper; 1.2 自定义函数 当Hive 阅读全文
posted @ 2020-08-07 09:53 loading--- 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 一、基本查询 创建部门表: hive (default)> create table if not exists dept( deptno int, dname string, loc int ) row format delimited fields terminated by '\t'; 创建员 阅读全文
posted @ 2020-06-17 09:52 loading--- 阅读(562) 评论(0) 推荐(0) 编辑
摘要: 一、Hive数据定义 1.1 基本数据类型 Hive数据类型 Java数据类型 长度 TINYINT byte 1byte有符号整数 SMALINT short 2byte有符号整数 INT int 4byte有符号整数 BIGINT long 8byte有符号整数 BOOLEAN boolean 阅读全文
posted @ 2020-06-15 16:55 loading--- 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 一、Hive简介 1.1 Hive概述 Hive是由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的文件数据映射为一张表,并提供类SQL查询功能。 Hive本质就是将HQL转换为MapReduce程序,其处理的数据存储在HDFS,分 阅读全文
posted @ 2020-06-11 09:22 loading--- 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 一、HA概述 HA(High Available)即高可用(7*24小时不中断服务),实现高可用最关键的策略就是消除单点故障。HA严格地来说应该分成各个组件的HA机制,HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。NameNode 阅读全文
posted @ 2020-06-10 10:16 loading--- 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop数据压缩 1.1 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提供了网络带宽和磁盘空间的效率。在运行MR程序时,IO操作、网络数据传输、Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘 阅读全文
posted @ 2020-06-10 10:06 loading--- 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 一、Join多种应用 1.1 Reduce Join Reduce Join工作原理: Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连 阅读全文
posted @ 2020-06-10 10:05 loading--- 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce工作流程 MapTask和Shuffle阶段: ReduceTask阶段: 1.1 MapTask工作机制 Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个KV。 Map阶段:该节点主要是将解析出的KV交给用户编写ma 阅读全文
posted @ 2020-06-10 09:58 loading--- 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce概述 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架; MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 1.1 MapReduce优点 阅读全文
posted @ 2020-06-10 09:55 loading--- 阅读(279) 评论(0) 推荐(0) 编辑