合集-大数据相关面试题

摘要:1、Hadoop集群的最主要瓶颈 磁盘IO 2、Hadoop三大组件 (1)、HDFS HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系 阅读全文
posted @ 2023-01-29 23:51 业余砖家 阅读(462) 评论(0) 推荐(0) 编辑
摘要:Spark Core面试篇01 一、简答题 1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,D 阅读全文
posted @ 2023-02-08 23:15 业余砖家 阅读(371) 评论(0) 推荐(0) 编辑
摘要:1.HBase是什么? 1) HBase是一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。 2) HBase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 3) HBase为null的记录不会被存储。 4 阅读全文
posted @ 2023-02-09 23:30 业余砖家 阅读(121) 评论(0) 推荐(0) 编辑
摘要:1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-val 阅读全文
posted @ 2023-02-08 23:34 业余砖家 阅读(119) 评论(0) 推荐(0) 编辑
摘要:1、什么是ZooKeeper? - 期望回答:ZooKeeper是一个分布式协调服务,提供了高度可靠且具有高性能的分布式应用协调服务。 ZooKeeper是一个开源的分布式协调服务,它提供了一个简单而健壮的分布式应用程序协调解决方案。其主要设计目标是通过提供高性能、可靠性、且具备高度可扩展性的服务, 阅读全文
posted @ 2024-07-04 17:18 业余砖家 阅读(57) 评论(0) 推荐(0) 编辑
摘要:1.1、介绍Hadoop 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: (1)、HDFS(分布式文件系统):解决海量数据存储; (2)、YARN(作业调度和集群资源管理的框架):解决资源任务调度; (3) 阅读全文
posted @ 2024-11-26 18:07 业余砖家 阅读(31) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示