随笔分类 - HIVE
摘要:最近有项目需求,flink写hive,暂不考虑性能要求。用hive jdbc简单封装了个sinkToHive,在开启kerberos的环境中,遇到如题的错误。 还有一个现象就是,首次hive操作是成功的,之后才是java.sql.SQLException: org.apache.thrift.tra
阅读全文
摘要:Writing GenericUDAFs: A Tutorial User-Defined Aggregation Functions (UDAFs) are an excellent way to integrate advanced data-processing into Hive. Hive
阅读全文
摘要:Writing UDTF's Writing UDTF's GenericUDTF Interface GenericUDTF Interface A custom UDTF can be created by extending the GenericUDTF abstract class and
阅读全文
摘要:Creating Custom UDFs First, you need to create a new class that extends UDF, with one or more methods named evaluate. package com.example.hive.udf; im
阅读全文
摘要:ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。 据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。 运用ORC File可以提高Hive的读、写以及处
阅读全文
摘要:ORCFILE IN HDP 2: BETTER COMPRESSION, BETTER PERFORMANCE by Carter Shanklin by Carter Shanklin The upcoming Hive 0.12 is set to bring some great new a
阅读全文
摘要:1、背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11
阅读全文
摘要:ORC文件格式是从Hive-0.11版本开始的。关于ORC文件格式的官方文档,以及基于官方文档的翻译内容这里就不赘述了,有兴趣的可以仔细研究了解一下。本文接下来根据论文《Major Technical Advancements in Apache Hive》中的内容进行深入的研究。 一、ORC文件格
阅读全文
摘要:Hive简介 Hive是一个基于 Hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。它最初是应Facebook对每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的,Hive把海量数据存储于Hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并
阅读全文
摘要:Short Description: Hive configuration settings to optimize your HiveQL when querying ORC formatted tables. Short Description: Article SYNOPSIS The Opt
阅读全文
摘要:Short Description: ORC Creation Best Practices with examples and references. Short Description: Article Synopsis. ORC is a columnar storage format for
阅读全文
摘要:http://blog.csdn.net/zhaorongsheng/article/details/72903431 官网关于orcfile的介绍 背景 Hive的rcfile格式已经使用多年,但是,它会将所有的列都当做二进制来处理,没有与类型挂钩。因此,Hive0.11版本引入orcFile。O
阅读全文
摘要:http://lxw1234.com/archives/2016/04/630.htm 关键字:orc、index、hive Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。
阅读全文
摘要:原因:版本问题解决方法:cp /root/hive/lib/当前的jlinexx.jar /root/hadoop/share/hadoop/yarn/lib
阅读全文