随笔分类 - Hive
收录在Hive学习与使用过程中的点滴积累
摘要:最近在Hive中使用Spark引擎进行执行时(`set hive.execution.engine=spark`),经常遇到`return code 30041`的报错,为了深入探究其原因,阅读了官方issue、相关博客进行了研究。下面从报错现象、原因分析、解决方案几个方面进行介绍,最后做一下小结。
阅读全文
摘要:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
阅读全文
摘要:JSON是一种通用的存储格式,在半结构化存储中十分常见,部分场景已经开始存在以JSON格式贴源存储的数据,作为下游数据使用方,我们亟需对JSON格式的数据进行加工和处理,以提取出我们需要的数据,以对外提供更完善的数据服务。
阅读全文
摘要:YYYY-MM-DD与YYYYMMDD;hh-mm-ss与hhmmss的相互转换有两种办法,第一种是利用UNIX时间戳函数,第二种是利用字符串拼接函数。
阅读全文
摘要:本文对Hive中常用的三个排序函数row_number();dense_rank();rank()的特性进行类比和总结,并通过笔者亲自动手写的一个小实验,直观展现这三个函数的特点。
阅读全文
摘要:对join与left join在什么场景中适用进行简单的说明与记录。
阅读全文
摘要:Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型。和大多数数据库相比,Hive具有一个独特的功能,那就是其对于数据在文件中的编码方式具有非常大的灵活性。大多数数据库对数据具有完全的控制,其包括对数据存储到磁盘的过程的控制,也包括对数据生命周期的控制。
阅读全文
