2023 年 2月 8 日随笔档案 - 业余砖家

2023年2月8日

摘要： 1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-val 阅读全文

posted @ 2023-02-08 23:33 业余砖家阅读(97) 评论(0) 推荐(0) 编辑

Spark相关面试题

摘要： Spark Core面试篇01 一、简答题 1.Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，D 阅读全文

posted @ 2023-02-08 23:15 业余砖家阅读(278) 评论(0) 推荐(0) 编辑

Hive分区和分桶的区别

摘要： 1．前言 Hive的分区和分桶都是细化数据管理，加快数据查询和分析，两者有什么区别呢？下面讲解一下分区和分桶的原理。 2．分区（1）分区原理 Hive的分区表可以有一个或多个分区键，用于确定数据的存储方式。分区（除了作为存储单元）还允许用户有效地识别满足指定条件的数据，显著加快查询分析速度。分区字阅读全文

posted @ 2023-02-08 22:28 业余砖家阅读(694) 评论(0) 推荐(0) 编辑

业余砖家

没有比人更高的山，没有比脚更长的路。

公告