随笔分类 -  Hive

收录在Hive学习与使用过程中的点滴积累
摘要:最近在Hive中使用Spark引擎进行执行时(`set hive.execution.engine=spark`),经常遇到`return code 30041`的报错,为了深入探究其原因,阅读了官方issue、相关博客进行了研究。下面从报错现象、原因分析、解决方案几个方面进行介绍,最后做一下小结。 阅读全文
posted @ 2021-01-05 20:32 JasonCeng 阅读(10600) 评论(0) 推荐(2) 编辑
摘要:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 阅读全文
posted @ 2020-12-14 22:56 JasonCeng 阅读(253) 评论(0) 推荐(0) 编辑
摘要:JSON是一种通用的存储格式,在半结构化存储中十分常见,部分场景已经开始存在以JSON格式贴源存储的数据,作为下游数据使用方,我们亟需对JSON格式的数据进行加工和处理,以提取出我们需要的数据,以对外提供更完善的数据服务。 阅读全文
posted @ 2020-09-28 14:11 JasonCeng 阅读(3186) 评论(0) 推荐(0) 编辑
摘要:YYYY-MM-DD与YYYYMMDD;hh-mm-ss与hhmmss的相互转换有两种办法,第一种是利用UNIX时间戳函数,第二种是利用字符串拼接函数。 阅读全文
posted @ 2020-08-23 09:50 JasonCeng 阅读(10706) 评论(0) 推荐(0) 编辑
摘要:本文对Hive中常用的三个排序函数row_number();dense_rank();rank()的特性进行类比和总结,并通过笔者亲自动手写的一个小实验,直观展现这三个函数的特点。 阅读全文
posted @ 2020-06-10 19:10 JasonCeng 阅读(2175) 评论(0) 推荐(1) 编辑
摘要:对join与left join在什么场景中适用进行简单的说明与记录。 阅读全文
posted @ 2019-12-14 22:42 JasonCeng 阅读(9101) 评论(0) 推荐(0) 编辑
摘要:Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型。和大多数数据库相比,Hive具有一个独特的功能,那就是其对于数据在文件中的编码方式具有非常大的灵活性。大多数数据库对数据具有完全的控制,其包括对数据存储到磁盘的过程的控制,也包括对数据生命周期的控制。 阅读全文
posted @ 2019-09-09 23:51 JasonCeng 阅读(722) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示