随笔分类 - hive
摘要:转自:http://www.lai18.com/content/24596525.html?from=cancel ORC文件格式是从Hive-0.11版本开始的。关于ORC文件格式的官方文档,以及基于官方文档的翻译内容这里就不赘述了,有兴趣的可以仔细研究了解一下。本文接下来根据论文《Major T
阅读全文
摘要:转自:http://blog.csdn.net/yangbutao/article/details/8519572 hadoop中可以对文件进行压缩,可以采用gzip、lzo、snappy等压缩算法。 对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对sequenceFile和Te
阅读全文
摘要:转自:http://www.aahyhaa.com/archives/316 hive引入partition和bucket的概念,中文翻译分别为分区和桶(我觉的不是很合适,但是网上基本都是这么翻译,暂时用这个吧),这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为了可以让查询
阅读全文
摘要:转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-6867-1-1.html阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Cr...
阅读全文
摘要:转自:Hive – Distinct 的实现:http://ju.outofmemory.cn/entry/784Hive – Group By 的实现:http://ju.outofmemory.cn/entry/785Hive – JOIN实现过程:http://ju.outofmemory.c...
阅读全文
摘要:转自:http://www.csdn.net/article/2015-01-13/2823530摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针...
阅读全文
摘要:转自:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是...
阅读全文
摘要:转自http://superlxw1234.iteye.com/blog/1582880一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,...
阅读全文
摘要:转自http://blog.csdn.net/lifuxiangcaohui/article/details/40262021对Hive的基本组成进行了总结:1、组件:元存储(Metastore )-存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动(Driver )- 控制 HiveQL ...
阅读全文
摘要:转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40615843
阅读全文
摘要:转自:http://blog.chinaunix.net/uid-27177626-id-4653808.htmlHive三种不同的数据导出的方式,根据导出的地方不一样,将这些方法分为三类:(1)导出到本地文件系统(2)导出到HDFS(3)导出到hive的另一个表中导出到本地文件系统执行:hive>...
阅读全文
摘要:转自:http://blog.csdn.net/yangbutao/article/details/8331937整个处理流程包括主要包括,语法解析(抽象语法树,AST,采用antlr),语义分析(sematic Analyzer生成查询块),逻辑计划生成(OP tree),逻辑计划优化,物理计划生...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-7598-1-1.htmlhive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念、原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助。此篇内容较多:看完之后需要达到的目标1.hive是什么2....
阅读全文
摘要:转自 http://www.tuicool.com/articles/qyUzQj最近在研究Impala,还是先回顾下Hive的SQL执行流程吧。Hive有三种用户接口:cli (Command line interface)bin/hive或bin/hive –service cli命令行方式(默...
阅读全文
摘要:文章转自:http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive...
阅读全文
摘要:转自:http://blog.csdn.net/yczws1/article/details/19178265。纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、H...
阅读全文