上一页 1 2 3 4 5 6 7 ··· 10 下一页

2020年5月16日

hive常考SQL题

摘要: sql执行顺序:from -> on -> join -> where -> group by -> 聚集函数 -> having -> having -> select ->distinct -> union -> order by -> limit (1)分组求最大值 1、单表分组最大 //在每 阅读全文

posted @ 2020-05-16 14:29 hdc520 阅读(1721) 评论(0) 推荐(0) 编辑

2020年5月7日

spark的shuffle过程

摘要: (1)shuffle的概述 Shuffle描述着数据从map task输出到reduce task输入的这段过程。因为是分布式存储,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存,磁盘IO的消耗。通常shuffle分为两部分:Map阶段的数 阅读全文

posted @ 2020-05-07 16:30 hdc520 阅读(1072) 评论(0) 推荐(0) 编辑

2020年5月5日

Azkaban介绍

摘要: (1)Azkaban概述 Azkaban是一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 (2)Azkaban安装部署 1、安装好以下三个服务器,a 阅读全文

posted @ 2020-05-05 20:52 hdc520 阅读(346) 评论(0) 推荐(0) 编辑

2020年5月1日

kafka面试整理

摘要: 1、kafka的选取机制 它负责管理整个集群中所有分区和副本的状态。当某个分区的leader副本出现故障时,由controller负责为该分区选举新的leader副本。当检测到某个分区的ISR集合发生变化时,由controller负责通知所有broker更新其元数据信息。当使用kafka-topic 阅读全文

posted @ 2020-05-01 21:24 hdc520 阅读(576) 评论(0) 推荐(0) 编辑

2020年4月30日

java死锁程序

摘要: (1)死锁案例 /** * 一个简单的死锁类 * main方法中启动两个线程,分别调用methodA和methodB方法 * methodA方法首先获取到a对象的锁,睡眠1秒钟 * 此时methodB方法执行获取到b对象的锁,睡眠1秒 * 此时methodA需要去获取b对象的锁才能继续执行,但是b锁 阅读全文

posted @ 2020-04-30 20:31 hdc520 阅读(215) 评论(0) 推荐(0) 编辑

2020年4月29日

算法之位操作

摘要: 一、基本操作 (1)异或即^:针对二进制,相同为0,不同为1 1)交换律:a ^ b ^ c = a ^ c ^ b 2)任何数与0异或为任何数 0 ^ n = n (2)位与运算&:针对二进制每一位进行&操作,当都为1时才是1; (3)或操作|:针对二进制,有1即为1 二、应用 (1)异或 //给 阅读全文

posted @ 2020-04-29 11:25 hdc520 阅读(213) 评论(0) 推荐(0) 编辑

2020年4月28日

Hive以及spark的Join过程

摘要: Join大致包括三个要素:Join方式、Join条件以及过滤条件。其中过滤条件也可以通过AND语句放在Join条件中。 二、Hive/MR中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。介绍两种join的原理和机制。 (1)Com 阅读全文

posted @ 2020-04-28 10:41 hdc520 阅读(1763) 评论(0) 推荐(0) 编辑

2020年4月27日

kafka API

摘要: (1)Producer的API 1、发送流程:Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main 线程和 Sender 线程,以及一个线程共享变量——RecordAccumulator。main 线程将消息发送给 RecordAccum 阅读全文

posted @ 2020-04-27 22:04 hdc520 阅读(201) 评论(0) 推荐(0) 编辑

2020年4月22日

kafka的生产者与消费者

摘要: 一、kafka的存储机制 (1)存储机制:Kafka 中消息是以 topic 进行分类的,生产者生产消息,消费者消费消息,都是面向 topic的。 topic 是逻辑上的概念,而 partition 是物理上的概念,每个 partition 对应于一个 log 文件,该 log 文件中存储的就是 p 阅读全文

posted @ 2020-04-22 14:59 hdc520 阅读(1991) 评论(0) 推荐(0) 编辑

2020年4月20日

kafka架构

摘要: 一、架构图如下: (1)相关概念 1、Producer:消息生产者,向kafka broker发送消息的客户端 2、Consumer:消息消费者,是消费者群组的一部分即可能会有一个或者多个消费者共同读取一个主题。 3、ConsumerGroup:消费者组,由多个 consumer 组成。消费者组内每 阅读全文

posted @ 2020-04-20 15:49 hdc520 阅读(361) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 10 下一页

导航