摘要:
Spark3.0已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中46%的优化都集中在Spark SQL上,SQL优化里最引人注意的非Adaptive Query Execution莫属了。 Adaptive Query Execution(AQE)是英特尔大数据技术团队和百度 阅读全文
摘要:
一面 简单介绍一下自己以及自己做过的项目; Java HashMap 是不是线程安全的?为什么? 请用 Java 写个单例模式 知道几种 GC 算法? 如何实现一个高效的单项列表逆向输出? 数据湖和数据仓库有什么区别? 详细介绍下 Flink 的 Checkpoint 执行机制(分布式快照) 算法题 阅读全文
摘要:
高可靠性分析 Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供Partition级别的复制,replication数量可以配置文件(default.replica 阅读全文
摘要:
数据一致性 HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中,存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上,需要NameNode节点来对这些数据进行管理,存储这些block的结点称为DataNode,NameNode是用来管理这些元数据的。 Name 阅读全文