Hive - 随笔分类 - JasonCeng

hive on spark：return code 30041 Failed to create Spark client for Spark session原因分析及解决方案探寻

摘要：最近在Hive中使用Spark引擎进行执行时（`set hive.execution.engine=spark`），经常遇到`return code 30041`的报错，为了深入探究其原因，阅读了官方issue、相关博客进行了研究。下面从报错现象、原因分析、解决方案几个方面进行介绍，最后做一下小结。阅读全文

posted @ 2021-01-05 20:32 JasonCeng 阅读(11335) 评论(0) 推荐(3)

Hive基础语法5分钟速览

摘要：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。阅读全文

posted @ 2020-12-14 22:56 JasonCeng 阅读(328) 评论(0) 推荐(0)

Hive对JSON格式的支持研究

摘要：JSON是一种通用的存储格式，在半结构化存储中十分常见，部分场景已经开始存在以JSON格式贴源存储的数据，作为下游数据使用方，我们亟需对JSON格式的数据进行加工和处理，以提取出我们需要的数据，以对外提供更完善的数据服务。阅读全文

posted @ 2020-09-28 14:11 JasonCeng 阅读(3326) 评论(0) 推荐(0)

Hive日期、时间转换：YYYY-MM-DD与YYYYMMDD；hh.mm.ss与hhmmss的相互转换

摘要：YYYY-MM-DD与YYYYMMDD；hh-mm-ss与hhmmss的相互转换有两种办法，第一种是利用UNIX时间戳函数，第二种是利用字符串拼接函数。阅读全文

posted @ 2020-08-23 09:50 JasonCeng 阅读(11377) 评论(0) 推荐(0)

Hive中row_number()、dense_rank()、rank()的区别

摘要：本文对Hive中常用的三个排序函数row_number();dense_rank();rank()的特性进行类比和总结，并通过笔者亲自动手写的一个小实验，直观展现这三个函数的特点。阅读全文

posted @ 2020-06-10 19:10 JasonCeng 阅读(2368) 评论(0) 推荐(1)

关于Hive中的join和left join的理解

摘要：对join与left join在什么场景中适用进行简单的说明与记录。阅读全文

posted @ 2019-12-14 22:42 JasonCeng 阅读(9349) 评论(0) 推荐(0)

《Hive编程指南》读书笔记 | 一文看懂Hive的数据类型和文件格式

摘要：Hive支持关系型数据库中的大多数基本数据类型，同时也支持关系型数据库中很少出现的3种集合数据类型。和大多数数据库相比，Hive具有一个独特的功能，那就是其对于数据在文件中的编码方式具有非常大的灵活性。大多数数据库对数据具有完全的控制，其包括对数据存储到磁盘的过程的控制，也包括对数据生命周期的控制。阅读全文

posted @ 2019-09-09 23:51 JasonCeng 阅读(776) 评论(0) 推荐(0)

JasonCeng's Blog

随笔分类 - Hive

公告