02 2023 档案
摘要:一、前言 HADOOP2 HA架构引入了ZKFC、Journalnode组件,本篇文章主要介绍ZKFC的功能和原理。HA架构支持两种切换方式: 手动切换: 通过命令实现主备之间的切换,可以用HDFS升级等场合; 自动切换: ZKFC( Zookeeper FailOver Controller )
阅读全文
摘要:分割数组 函数 数组及操作 split 将一个数组分割为多个子数组 hsplit 将一个数组水平分割为多个子数组(按列) vsplit 将一个数组垂直分割为多个子数组(按行) numpy.split 函数沿特定的轴将数组分割为子数组,格式如下: numpy.split(ary, indices_or
阅读全文
摘要:数组的合并和拆分 ## 将数组按照固定长度进行拆分,返回一个二维数组 def list_split(source_list, n): return [source_list[i:i+n] for i in range(0, len(source_list), n)] if '__main__' ==
阅读全文
摘要:序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试题-Hadoop(2022版) https://blog.csdn.net/qq_43061290/
阅读全文
摘要:1. 简介 Apache Hudi(简称:Hudi)允许您在现有的hadoop兼容存储之上存储大量数据,同时提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。 这两种原语分别是: 1)Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Dele
阅读全文
摘要:1.HBase是什么? 1) HBase是一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。 2) HBase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 3) HBase为null的记录不会被存储。 4
阅读全文
摘要:1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-val
阅读全文
摘要:Spark Core面试篇01 一、简答题 1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,D
阅读全文
摘要:1.前言 Hive的分区和分桶都是细化数据管理,加快数据查询和分析,两者有什么区别呢?下面讲解一下分区和分桶的原理。 2.分区 (1)分区原理 Hive的分区表可以有一个或多个分区键,用于确定数据的存储方式。分区(除了作为存储单元)还允许用户有效地识别满足指定条件的数据,显著加快查询分析速度。分区字
阅读全文