关注我,每天一篇大数据开发面试文章,挺进大厂!2021年全套大数据面试题开始更新!
上一页 1 2 3 4 5 6 ··· 9 下一页
摘要: 热身30题 1.描述一下HDFS的写流程 2.描述一下HDFS的读流程 3.详细讲解一下HDFS的体系结构 4.如果一个datanode出现宕机,恢复流程是什么样的? 5.通常你是如何解决Haddop的NameNode宕机的,流程是什么? 6.描述一下NameNode对元数据的管理 7.NameNo 阅读全文
posted @ 2021-01-13 00:11 王知无 阅读(562) 评论(0) 推荐(0) 编辑
摘要: 更新内容和时间表 大数据基础篇 Part0:Java基础篇 Part1:Java高级篇 Part2:Java之JVM篇 Part3:NIO和Netty篇 Part4:分布式理论篇 框架篇 Part5:Hadoop之MapReduce Part6:Hadoop之HDFS Part7:Hadoop之Ya 阅读全文
posted @ 2021-01-10 12:56 王知无 阅读(2603) 评论(0) 推荐(0) 编辑
摘要: 本文集合了小编在日常学习和生产实践中遇到的使用Hbase中的各种问题和优化方法,分别从表设计、rowkey设计、内存、读写、配置等各个领域对Hbase常用的调优方式进行了总结,希望能对读者有帮助。本文参考结合自己实际优化经验,参考了大量官网和各个前辈的经验,生产环境中的Hbase集群支撑了约50万/ 阅读全文
posted @ 2021-01-10 11:24 王知无 阅读(589) 评论(0) 推荐(0) 编辑
摘要: 感谢胖子大佬提供的企业面试题。本文因为时间关系只有部分答案,后续的答案小编会持续补全,请持续关注本系列。年后升职加薪就靠它了。胖子大佬就在交流群里,需要加群的公众号回复【加群】。 更多面试题可以参考:《Flink面试通关手册》 1、Flink如何保证精确一次性消费 Flink 保证精确一次性消费主要 阅读全文
posted @ 2021-01-10 01:51 王知无 阅读(1070) 评论(0) 推荐(0) 编辑
摘要: 本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。分享中,李金波主要从总体思路、模型设计、数加架构、数据治理 阅读全文
posted @ 2021-01-09 17:44 王知无 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。分享中,李金波主要从总体思路、模型设计、数加架构、数据治理 阅读全文
posted @ 2021-01-09 14:40 王知无 阅读(321) 评论(0) 推荐(0) 编辑
摘要: Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到red 阅读全文
posted @ 2021-01-09 14:38 王知无 阅读(996) 评论(0) 推荐(1) 编辑
摘要: 背景 在大数据领域我们都知道,开发是最简单,任务的合理调优、问题排查才是最重要的。 我们在之前的文章《Flink面试通关手册》中也讲解过,作者结合线上出现的一些问题,总结了一些任务调优需要注意的点。 一些简单的原则 我们在之前的文章《Flink面试通关手册》中提到过一个问题,Flink任务延迟高,想 阅读全文
posted @ 2021-01-09 14:35 王知无 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 小编在去年的时候,写过一篇轰动全网的文章《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库》,这篇文章当时被各大门户网站和自媒体疯狂转载,保守阅读量也在50万+UV,在这篇文章中提到过Preto,Presto作为OLAP计算领域的一员有着独特的优势和特点。 本篇文章是作者作为Presto 阅读全文
posted @ 2021-01-09 14:16 王知无 阅读(1591) 评论(0) 推荐(0) 编辑
摘要: Hive用的好,才能从数据中挖掘出更多的信息来。用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。Hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark sql等替代品。这里重点讲解hive的优化方式,例如 一. 表连接 阅读全文
posted @ 2020-01-19 20:18 王知无 阅读(7624) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 9 下一页