随笔档案「2021年1月」 - 王知无

所以说读者们才是最优秀的 | 某读者喜提offer后的分享

摘要：这是小编的一个读者喜提offer后在群里做的分享，文中隐藏了读者的个人隐私信息，小编这里把他的面经分享出来供大家学习。群友们看到后都纷纷表示【我酸了，现在我就是个柠檬精系列】。关于如何学习/准备面试的总结首先说一说本人的情况本人普通本科，非计算机专业（之前一直对这个耿耿于怀，后来想通了觉得6 阅读全文

posted @ 2021-01-31 12:37 王知无阅读(289) 评论(0) 推荐(0)

2021年，开发者的落日

摘要：小说《三体》第一部结尾，叶文洁透过红岸基地天空看到了最后一次日落。她亲手发出的讯息让人类太阳永远沉沦。多年以后，一颗小小的水滴瞬间摧毁庞大的人类星际舰队，人类的骄傲与自尊灰飞烟灭。叶文洁在登上红案基地前，说出了那句振聋发聩的话：这是一切的开始，这也是人类的落日。下面这几十行字只是一时兴起的个人思阅读全文

posted @ 2021-01-30 11:11 王知无阅读(297) 评论(0) 推荐(0)

【大数据哔哔集20210124】有人问我Kafka Leader选举?我真没慌

摘要：一条消息只有被ISR中所有Follower都从Leader复制过去才会被认为已提交。这样就避免了部分数据被写进了Leader，还没来得及被任何Follower复制就宕机了，而造成数据丢失。而对于Producer而言，它可以选择是否等待消息commit，这可以通过request.required.ac 阅读全文

posted @ 2021-01-24 11:00 王知无阅读(263) 评论(0) 推荐(0)

数据倾斜？Spark 3.0 AQE专治各种不服

摘要：Spark3.0已经发布半年之久，这次大版本的升级主要是集中在性能优化和文档丰富上，其中46%的优化都集中在Spark SQL上，SQL优化里最引人注意的非Adaptive Query Execution莫属了。 Adaptive Query Execution(AQE)是英特尔大数据技术团队和百度阅读全文

posted @ 2021-01-23 18:44 王知无阅读(2956) 评论(0) 推荐(2)

阿里大数据一次简单而失败的面试题回忆

摘要：一面简单介绍一下自己以及自己做过的项目； Java HashMap 是不是线程安全的？为什么？请用 Java 写个单例模式知道几种 GC 算法？如何实现一个高效的单项列表逆向输出？数据湖和数据仓库有什么区别？详细介绍下 Flink 的 Checkpoint 执行机制（分布式快照）算法题阅读全文

posted @ 2021-01-23 18:43 王知无阅读(1030) 评论(1) 推荐(0)

【大数据哔哔集20210123】别问，问就是Kafka最可靠

摘要：高可靠性分析 Kafka的高可靠性的保障来源于其健壮的副本（replication）策略。通过调节其副本相关参数，可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供Partition级别的复制，replication数量可以配置文件（default.replica 阅读全文

posted @ 2021-01-23 18:42 王知无阅读(303) 评论(0) 推荐(0)

【大数据哔哔集20210122】面试官问我HDFS丢不丢数据？我啪就把这个文章甩到他脸上

摘要：数据一致性 HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中，存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上，需要NameNode节点来对这些数据进行管理，存储这些block的结点称为DataNode，NameNode是用来管理这些元数据的。 Name 阅读全文

posted @ 2021-01-23 18:39 王知无阅读(665) 评论(0) 推荐(0)

Sorry！Hbase的LSM Tree就是可以为所欲为！

摘要：我们先抛出一个问题： LSM树是HBase里使用的非常有创意的一种数据结构。在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksD 阅读全文

posted @ 2021-01-13 00:17 王知无阅读(428) 评论(0) 推荐(0)

【大数据面试之对线面试官】MapReduce/HDFS/YARN面试题70连击

摘要：热身30题 1.描述一下HDFS的写流程 2.描述一下HDFS的读流程 3.详细讲解一下HDFS的体系结构 4.如果一个datanode出现宕机，恢复流程是什么样的？ 5.通常你是如何解决Haddop的NameNode宕机的，流程是什么？ 6.描述一下NameNode对元数据的管理 7.NameNo 阅读全文

posted @ 2021-01-13 00:11 王知无阅读(638) 评论(0) 推荐(0)

2021年最新版大数据面试题全面总结-持续更新

摘要：更新内容和时间表大数据基础篇 Part0：Java基础篇 Part1：Java高级篇 Part2：Java之JVM篇 Part3：NIO和Netty篇 Part4：分布式理论篇框架篇 Part5：Hadoop之MapReduce Part6：Hadoop之HDFS Part7：Hadoop之Ya 阅读全文

posted @ 2021-01-10 12:56 王知无阅读(2651) 评论(0) 推荐(0)

Hbase性能优化百科全书

摘要：本文集合了小编在日常学习和生产实践中遇到的使用Hbase中的各种问题和优化方法，分别从表设计、rowkey设计、内存、读写、配置等各个领域对Hbase常用的调优方式进行了总结，希望能对读者有帮助。本文参考结合自己实际优化经验，参考了大量官网和各个前辈的经验，生产环境中的Hbase集群支撑了约50万/ 阅读全文

posted @ 2021-01-10 11:24 王知无阅读(691) 评论(0) 推荐(0)

【大数据面试题】Flink第一弹60连发

摘要：感谢胖子大佬提供的企业面试题。本文因为时间关系只有部分答案，后续的答案小编会持续补全，请持续关注本系列。年后升职加薪就靠它了。胖子大佬就在交流群里，需要加群的公众号回复【加群】。更多面试题可以参考：《Flink面试通关手册》 1、Flink如何保证精确一次性消费 Flink 保证精确一次性消费主要阅读全文

posted @ 2021-01-10 01:51 王知无阅读(1178) 评论(0) 推荐(0)

企业大数据平台仓库架构建设思路

摘要：本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大，数据也在爆炸式地增长，各种结构化、半结构化、非结构化数据的产生，越来越多的企业开始在大数据平台下进行数据处理。分享中，李金波主要从总体思路、模型设计、数加架构、数据治理阅读全文

posted @ 2021-01-09 17:44 王知无阅读(411) 评论(0) 推荐(0)

企业大数据平台仓库架构建设思路

摘要：本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大，数据也在爆炸式地增长，各种结构化、半结构化、非结构化数据的产生，越来越多的企业开始在大数据平台下进行数据处理。分享中，李金波主要从总体思路、模型设计、数加架构、数据治理阅读全文

posted @ 2021-01-09 14:40 王知无阅读(343) 评论(0) 推荐(0)

【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同？

摘要：Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到red 阅读全文

posted @ 2021-01-09 14:38 王知无阅读(1082) 评论(0) 推荐(1)

学不会去当产品吧？Flink实战任务调优

摘要：背景在大数据领域我们都知道，开发是最简单，任务的合理调优、问题排查才是最重要的。我们在之前的文章《Flink面试通关手册》中也讲解过，作者结合线上出现的一些问题，总结了一些任务调优需要注意的点。一些简单的原则我们在之前的文章《Flink面试通关手册》中提到过一个问题，Flink任务延迟高，想阅读全文

posted @ 2021-01-09 14:35 王知无阅读(450) 评论(0) 推荐(0)

Presto在大数据领域的实践和探索

摘要：小编在去年的时候，写过一篇轰动全网的文章《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库》，这篇文章当时被各大门户网站和自媒体疯狂转载，保守阅读量也在50万+UV，在这篇文章中提到过Preto，Presto作为OLAP计算领域的一员有着独特的优势和特点。本篇文章是作者作为Presto 阅读全文

posted @ 2021-01-09 14:16 王知无阅读(1704) 评论(0) 推荐(0)

王知无

01 2021 档案

公告