随笔分类 - HIVE面试题
摘要:文章目录 什么是Hbase Hbase的本质 hbase来源于谷歌的哪篇论文 Hbase端口号 Hbase的数据的维度及代表的意思 rowkey设计原则 HBASE原理机制 Hbase怎么更新数据 HBase系统架构由什么组成 HBase中最核心的模块是? HBase最小存储数据的单元是?HBase
阅读全文
摘要:文章目录 1. Flume系列: 2. zookeeper系列 3.spark系列 4.Mysql系列 5.其他大数据面试题 1. Flume系列: 1.Channel Selectors有几种类型,它们的区别是什么?答:有两种。Replicating Channel Selector(默认的)和M
阅读全文
摘要:向导 数据结构 视频表 用户表 需求描述 解答 1. 统计视频观看数Top10 2. 统计视频类别热度Top10 3. 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数 4. 统计视频观看数Top50所关联视频的所属类别排序 5. 统计每个类别中的视频热度,视频流量,观看数
阅读全文
摘要:一、hive架构相关 二、hive的特点 三、内部表和外部表的区别? 四、4个by的区别? 五、介绍一下有哪些常用函数? 5.1、行转列函数 5.2、列转行函数 5.3、Rank排名函数 5.4、窗口函数(开窗函数) 六、UDF、UDAF、UDTF相关面试题 6.1、UDF、UDAF、UDTF的区别
阅读全文
摘要:Hive 原理 1. 用户提交查询等任务给Driver。 2. 编译器获得该用户的任务Plan。 3. 编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。 4. 编译器Compiler得到元数据信息,对任务进行编译,先将HiveQL转换为抽象语法树,然后将抽象语
阅读全文
摘要:文章目录 1.什么是hive 2.为什么要用hive 3.hive几种基本表类型 4.内部表(管理表)和外部表的区别 5.Hive数据仓库与数据库的异同 6.Hive 自定义函数 7.Hive中4种排序的区别 8.把数据加载到hive表中? 9.hive创建表的方式及区别 10.hive元数据存放的
阅读全文
摘要:(九)Hive的5个面试题 目录 一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析 二、学生课程成绩 1、说明 2、需求 三、求每一年最大气温的那一天 + 温度四、求学生选课情况 1、说明 2、 需求 3、解析 1、数据说明 2、数据准备 3、需求 4、解析 五
阅读全文
摘要:Hive面试题整理(一) 1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆) 1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀; (2)业务
阅读全文
摘要:1.Hive表关联查询,如何解决数据倾斜的问题 2.谈一下hive的特点,以及hive和RDBMS有什么异同 3.说一下hive中sort by、order by、cluster by、distribute by各代表的意思 4.简要描述数据库中的 null,说出null在hive底层如何存储,并解
阅读全文
摘要:1)Hive数据倾斜问题: 倾斜原因: map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。等原因造成的reduce上的数据量差异过大。 1.1)key分布不均匀 1.2)业务数据本身的特性 1.3)SQL语句造成数据倾斜 解决方案: 1>参数调节:
阅读全文
摘要:1.Hive数据倾斜问题。数据倾斜:数据倾斜主要表现在,map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条Key所在的reduce节点所处
阅读全文
摘要:1. Hive数据倾斜 原因 key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜 解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第
阅读全文