随笔分类 - HDFS面试题
摘要:本文目录 一、hive架构相关 二、hive的特点 三、内部表和外部表的区别? 四、4个by的区别? 五、介绍一下有哪些常用函数? 5.1、行转列函数 5.2、列转行函数 5.3、Rank排名函数 5.4、窗口函数(开窗函数) 六、UDF、UDAF、UDTF相关面试题 6.1、UDF、UDAF、UD
阅读全文
摘要:hive 的使用,内外部表的区别,分区作用, UDF 和 Hive 优化 (1)hive的使用:仓库,工具 (2)内部表:加载数据到hive所在的hdfs目录,删除时,元数据文件都删除 外部表:不加载数据到Hive所在的hdfs目录,删除时,只删除表结构 (3)分区作用:防止数据倾斜 (4)UDF函
阅读全文
摘要:mapreduce工作流程:1、client提交数据到DFS,然后被分为多个split,然后通过inputformatter以key-value传给jobTraker。jobTraker分配工作给多个map(taskTraker)。project师重写map,在各个taskTraker上分别运行代码
阅读全文
摘要:HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐
阅读全文
摘要:1.什么是hadoop 答:是google的核心算法MapReduce的一个开源实现。 用于海量数据的并行处理。 hadoop的核心主要包括:HDFS和MapReduce HDFS是分布式文件系统。用于分式存储海量数据。 MapReduce是分布式数据处理模型,本质是并行处理。 2.用hadoop来
阅读全文
摘要:1、hadoop与云计算之间的关系? 解析:云计算由位于网络上的一组服务器把其计算、存储、数据等资源以服务的形式提供给请求者以完成信息处理任务的方法和过程。针对海量文本数据处 理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储
阅读全文