关注我,每天一篇大数据开发面试文章,挺进大厂!2021年全套大数据面试题开始更新!

01 2021 档案

摘要:这是小编的一个读者喜提offer后在群里做的分享,文中隐藏了读者的个人隐私信息,小编这里把他的面经分享出来供大家学习。 群友们看到后都纷纷表示【我酸了,现在我就是个柠檬精系列】。 关于如何学习/准备面试的总结 首先说一说本人的情况 本人普通本科,非计算机专业(之前一直对这个耿耿于怀,后来想通了觉得6 阅读全文
posted @ 2021-01-31 12:37 王知无 阅读(255) 评论(0) 推荐(0) 编辑
摘要:小说《三体》第一部结尾,叶文洁透过红岸基地天空看到了最后一次日落。她亲手发出的讯息让人类太阳永远沉沦。多年以后,一颗小小的水滴瞬间摧毁庞大的人类星际舰队,人类的骄傲与自尊灰飞烟灭。叶文洁在登上红案基地前,说出了那句振聋发聩的话: 这是一切的开始,这也是人类的落日。 下面这几十行字只是一时兴起的个人思 阅读全文
posted @ 2021-01-30 11:11 王知无 阅读(279) 评论(0) 推荐(0) 编辑
摘要:一条消息只有被ISR中所有Follower都从Leader复制过去才会被认为已提交。这样就避免了部分数据被写进了Leader,还没来得及被任何Follower复制就宕机了,而造成数据丢失。而对于Producer而言,它可以选择是否等待消息commit,这可以通过request.required.ac 阅读全文
posted @ 2021-01-24 11:00 王知无 阅读(245) 评论(0) 推荐(0) 编辑
摘要:Spark3.0已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中46%的优化都集中在Spark SQL上,SQL优化里最引人注意的非Adaptive Query Execution莫属了。 Adaptive Query Execution(AQE)是英特尔大数据技术团队和百度 阅读全文
posted @ 2021-01-23 18:44 王知无 阅读(2542) 评论(0) 推荐(1) 编辑
摘要:一面 简单介绍一下自己以及自己做过的项目; Java HashMap 是不是线程安全的?为什么? 请用 Java 写个单例模式 知道几种 GC 算法? 如何实现一个高效的单项列表逆向输出? 数据湖和数据仓库有什么区别? 详细介绍下 Flink 的 Checkpoint 执行机制(分布式快照) 算法题 阅读全文
posted @ 2021-01-23 18:43 王知无 阅读(943) 评论(1) 推荐(0) 编辑
摘要:高可靠性分析 Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供Partition级别的复制,replication数量可以配置文件(default.replica 阅读全文
posted @ 2021-01-23 18:42 王知无 阅读(280) 评论(0) 推荐(0) 编辑
摘要:数据一致性 HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中,存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上,需要NameNode节点来对这些数据进行管理,存储这些block的结点称为DataNode,NameNode是用来管理这些元数据的。 Name 阅读全文
posted @ 2021-01-23 18:39 王知无 阅读(589) 评论(0) 推荐(0) 编辑
摘要:我们先抛出一个问题: LSM树是HBase里使用的非常有创意的一种数据结构。在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksD 阅读全文
posted @ 2021-01-13 00:17 王知无 阅读(355) 评论(0) 推荐(0) 编辑
摘要:热身30题 1.描述一下HDFS的写流程 2.描述一下HDFS的读流程 3.详细讲解一下HDFS的体系结构 4.如果一个datanode出现宕机,恢复流程是什么样的? 5.通常你是如何解决Haddop的NameNode宕机的,流程是什么? 6.描述一下NameNode对元数据的管理 7.NameNo 阅读全文
posted @ 2021-01-13 00:11 王知无 阅读(568) 评论(0) 推荐(0) 编辑
摘要:更新内容和时间表 大数据基础篇 Part0:Java基础篇 Part1:Java高级篇 Part2:Java之JVM篇 Part3:NIO和Netty篇 Part4:分布式理论篇 框架篇 Part5:Hadoop之MapReduce Part6:Hadoop之HDFS Part7:Hadoop之Ya 阅读全文
posted @ 2021-01-10 12:56 王知无 阅读(2608) 评论(0) 推荐(0) 编辑
摘要:本文集合了小编在日常学习和生产实践中遇到的使用Hbase中的各种问题和优化方法,分别从表设计、rowkey设计、内存、读写、配置等各个领域对Hbase常用的调优方式进行了总结,希望能对读者有帮助。本文参考结合自己实际优化经验,参考了大量官网和各个前辈的经验,生产环境中的Hbase集群支撑了约50万/ 阅读全文
posted @ 2021-01-10 11:24 王知无 阅读(609) 评论(0) 推荐(0) 编辑
摘要:感谢胖子大佬提供的企业面试题。本文因为时间关系只有部分答案,后续的答案小编会持续补全,请持续关注本系列。年后升职加薪就靠它了。胖子大佬就在交流群里,需要加群的公众号回复【加群】。 更多面试题可以参考:《Flink面试通关手册》 1、Flink如何保证精确一次性消费 Flink 保证精确一次性消费主要 阅读全文
posted @ 2021-01-10 01:51 王知无 阅读(1086) 评论(0) 推荐(0) 编辑
摘要:本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。分享中,李金波主要从总体思路、模型设计、数加架构、数据治理 阅读全文
posted @ 2021-01-09 17:44 王知无 阅读(373) 评论(0) 推荐(0) 编辑
摘要:本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。分享中,李金波主要从总体思路、模型设计、数加架构、数据治理 阅读全文
posted @ 2021-01-09 14:40 王知无 阅读(326) 评论(0) 推荐(0) 编辑
摘要:Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到red 阅读全文
posted @ 2021-01-09 14:38 王知无 阅读(1009) 评论(0) 推荐(1) 编辑
摘要:背景 在大数据领域我们都知道,开发是最简单,任务的合理调优、问题排查才是最重要的。 我们在之前的文章《Flink面试通关手册》中也讲解过,作者结合线上出现的一些问题,总结了一些任务调优需要注意的点。 一些简单的原则 我们在之前的文章《Flink面试通关手册》中提到过一个问题,Flink任务延迟高,想 阅读全文
posted @ 2021-01-09 14:35 王知无 阅读(408) 评论(0) 推荐(0) 编辑
摘要:小编在去年的时候,写过一篇轰动全网的文章《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库》,这篇文章当时被各大门户网站和自媒体疯狂转载,保守阅读量也在50万+UV,在这篇文章中提到过Preto,Presto作为OLAP计算领域的一员有着独特的优势和特点。 本篇文章是作者作为Presto 阅读全文
posted @ 2021-01-09 14:16 王知无 阅读(1613) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示