2020年3月28日

Hive的面试整理

摘要: 1、hive的作用: hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 相对于mapreduce 离线计算需要写很多java代码去实现数据提取,hive可以通过类SQL语句快速实 阅读全文

posted @ 2020-03-28 17:45 hdc520 阅读(713) 评论(0) 推荐(0) 编辑

Spark面试整理

摘要: 一、spark的优势: 1、每一个作业独立调度,可以把所有的作业做一个图进行调度,各个作业之间相互依赖,在调度过程中一起调度,速度快。 2、所有过程都基于内存,所以通常也将Spark称作是基于内存的迭代式运算框架。 3、spark提供了更丰富的算子,让操作更方便。 二、为什么Spark比Map Re 阅读全文

posted @ 2020-03-28 17:29 hdc520 阅读(2926) 评论(0) 推荐(2) 编辑

Hadoop面试整理

摘要: 1、Hadoop1.x和2.x之间的区别:Hadoop 1.0主要由两个分支组成:MapReduce和HDFS,在高可用、扩展性等方面存在问题 (1)HDFS存在的问题 1)NameNode单点故障,难以应用于在线场景。 2)NameNode压力过大,且内存受限,影响扩展性。 (2)MapReduc 阅读全文

posted @ 2020-03-28 17:20 hdc520 阅读(3330) 评论(0) 推荐(0) 编辑

导航