王知无

2021年1月13日

摘要：热身30题 1.描述一下HDFS的写流程 2.描述一下HDFS的读流程 3.详细讲解一下HDFS的体系结构 4.如果一个datanode出现宕机，恢复流程是什么样的？ 5.通常你是如何解决Haddop的NameNode宕机的，流程是什么？ 6.描述一下NameNode对元数据的管理 7.NameNo 阅读全文

posted @ 2021-01-13 00:11 王知无阅读(638) 评论(0) 推荐(0)

2021年1月10日

2021年最新版大数据面试题全面总结-持续更新

摘要：更新内容和时间表大数据基础篇 Part0：Java基础篇 Part1：Java高级篇 Part2：Java之JVM篇 Part3：NIO和Netty篇 Part4：分布式理论篇框架篇 Part5：Hadoop之MapReduce Part6：Hadoop之HDFS Part7：Hadoop之Ya 阅读全文

posted @ 2021-01-10 12:56 王知无阅读(2651) 评论(0) 推荐(0)

Hbase性能优化百科全书

摘要：本文集合了小编在日常学习和生产实践中遇到的使用Hbase中的各种问题和优化方法，分别从表设计、rowkey设计、内存、读写、配置等各个领域对Hbase常用的调优方式进行了总结，希望能对读者有帮助。本文参考结合自己实际优化经验，参考了大量官网和各个前辈的经验，生产环境中的Hbase集群支撑了约50万/ 阅读全文

posted @ 2021-01-10 11:24 王知无阅读(691) 评论(0) 推荐(0)

【大数据面试题】Flink第一弹60连发

摘要：感谢胖子大佬提供的企业面试题。本文因为时间关系只有部分答案，后续的答案小编会持续补全，请持续关注本系列。年后升职加薪就靠它了。胖子大佬就在交流群里，需要加群的公众号回复【加群】。更多面试题可以参考：《Flink面试通关手册》 1、Flink如何保证精确一次性消费 Flink 保证精确一次性消费主要阅读全文

posted @ 2021-01-10 01:51 王知无阅读(1178) 评论(0) 推荐(0)

2021年1月9日

企业大数据平台仓库架构建设思路

摘要：本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大，数据也在爆炸式地增长，各种结构化、半结构化、非结构化数据的产生，越来越多的企业开始在大数据平台下进行数据处理。分享中，李金波主要从总体思路、模型设计、数加架构、数据治理阅读全文

posted @ 2021-01-09 17:44 王知无阅读(411) 评论(0) 推荐(0)

企业大数据平台仓库架构建设思路

摘要：本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大，数据也在爆炸式地增长，各种结构化、半结构化、非结构化数据的产生，越来越多的企业开始在大数据平台下进行数据处理。分享中，李金波主要从总体思路、模型设计、数加架构、数据治理阅读全文

posted @ 2021-01-09 14:40 王知无阅读(343) 评论(0) 推荐(0)

【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同？

摘要： Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到red 阅读全文

posted @ 2021-01-09 14:38 王知无阅读(1082) 评论(0) 推荐(1)

学不会去当产品吧？Flink实战任务调优

摘要：背景在大数据领域我们都知道，开发是最简单，任务的合理调优、问题排查才是最重要的。我们在之前的文章《Flink面试通关手册》中也讲解过，作者结合线上出现的一些问题，总结了一些任务调优需要注意的点。一些简单的原则我们在之前的文章《Flink面试通关手册》中提到过一个问题，Flink任务延迟高，想阅读全文

posted @ 2021-01-09 14:35 王知无阅读(450) 评论(0) 推荐(0)

Presto在大数据领域的实践和探索

摘要：小编在去年的时候，写过一篇轰动全网的文章《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库》，这篇文章当时被各大门户网站和自媒体疯狂转载，保守阅读量也在50万+UV，在这篇文章中提到过Preto，Presto作为OLAP计算领域的一员有着独特的优势和特点。本篇文章是作者作为Presto 阅读全文

posted @ 2021-01-09 14:16 王知无阅读(1704) 评论(0) 推荐(0)

2020年1月19日

Hive优化的十大方法

摘要： Hive用的好，才能从数据中挖掘出更多的信息来。用过hive的朋友，我想或多或少都有类似的经历：一天下来，没跑几次hive，就到下班时间了。Hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark sql等替代品。这里重点讲解hive的优化方式，例如一. 表连接阅读全文

posted @ 2020-01-19 20:18 王知无阅读(7884) 评论(0) 推荐(0)

公告