摘要: 1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-val 阅读全文
posted @ 2023-02-08 23:33 业余砖家 阅读(97) 评论(0) 推荐(0) 编辑
摘要: Spark Core面试篇01 一、简答题 1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,D 阅读全文
posted @ 2023-02-08 23:15 业余砖家 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 1.前言 Hive的分区和分桶都是细化数据管理,加快数据查询和分析,两者有什么区别呢?下面讲解一下分区和分桶的原理。 2.分区 (1)分区原理 Hive的分区表可以有一个或多个分区键,用于确定数据的存储方式。分区(除了作为存储单元)还允许用户有效地识别满足指定条件的数据,显著加快查询分析速度。分区字 阅读全文
posted @ 2023-02-08 22:28 业余砖家 阅读(694) 评论(0) 推荐(0) 编辑