随笔分类 - Hive
Hive的原理和使用方法
摘要:一、 背景 客户现场的CDH6.x版本的集群执行一个大分区表时hiveserver2发生了内存溢出。下面针对该问题进行了复现并深入了解了hiveserver2内存加载使用原理;提出了解决此类问题的方案,具体内容如下。 二、HiveServer2内存溢出 2.1查看表文件个数 desc formatt
阅读全文
摘要:一、背景 作为大数据常用的组件Hive,其在执行作业异常时会返回一些错误码。但是,hive返回的错误概括性比较强,往往看不出来具体的信息,需要进入到集群中查看详细的yarn执行日志或者hiveserver2的日志才能定位出具体的原因。 本文针对客户生产环境中常见的Hive返回的错误码进行释义,并提出
阅读全文
摘要:一、问题描述 最近碰到一个令人郁闷的问题,因为客户的CDH版本比较低,hive1.1.0版本,而我们现在使用的spark版本都比较近搞,这样就会造成,如果我使用hive1.1.0版本就会报错: java.lang.NoSuchFieldError: METASTORE_CLIENT_SOCKET_L
阅读全文
摘要:一、概述 将数据以parquet模式写入到hive的分区表中时,底层源码有个错误,在进行分割字段判断时,没有引用已传入字符,多了一个“=”;该错误在hive的client中也会碰到 错误原因是底层分割符引用错误, 二、解决方法 从https://github.com/apache/parquet-m
阅读全文
摘要:一、事务的概述 1、定义 事务就是一组单元化操作,这些操作要么都执行,要么都不执行,是一个不可分割的工作单位。 2、特点 事务(transaction)具有的四个要素:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。这四个
阅读全文
摘要:一、Hive的部署 1、官方文档 https://cwiki.apache.org/confluence/display/Hive/GettingStarted 2、前提条件 需要安装JDK1.7之上版本 Hadoop2.x以上版本 一般选择在Linux上运行 元数据库Mysql 使用CDH-5.1
阅读全文
摘要:一、Hive的概述 1、Hive的定义 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL进行数据读取、写入和管理。 2、Hive的架构图 hive的各个组成部分介绍: 用户接口:包括 CLI、JDBC/ODBC、WebGUI。 元数据存储:通常是
阅读全文