文章分类 -  Hive

1 2 3 下一页

hive中UDTF编写和使用(转)
摘要:1. UDTF介绍 UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF 继承org.apache.hadoop.hive.ql.udf.generic.G 阅读全文

posted @ 2016-11-23 12:20 1130136248 阅读(602) 评论(0) 推荐(0) 编辑

hive中UDF、UDAF和UDTF使用
摘要:Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text 阅读全文

posted @ 2016-11-23 11:51 1130136248 阅读(277) 评论(0) 推荐(0) 编辑

hive mapjoin使用
摘要:今天遇到一个hive的问题,如下hive sql: select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运 阅读全文

posted @ 2016-07-21 17:36 1130136248 阅读(519) 评论(0) 推荐(0) 编辑

hive的distribute by应用
摘要:hive中的distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,根据reduce的个数进行数据分发,默认是采用hash算法。 对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribut 阅读全文

posted @ 2016-06-12 13:45 1130136248 阅读(326) 评论(0) 推荐(0) 编辑

hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
摘要:order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 set hive.mapred.mode=nonstrict; (default value / 默认值) s 阅读全文

posted @ 2016-06-12 13:44 1130136248 阅读(226) 评论(0) 推荐(0) 编辑

[一起学Hive]之二十-自定义HiveServer2的用户安全认证
摘要:关键字:hiveserver2、用户安全 HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。 比如:在配置HiveServer2的时候,hive.serv 阅读全文

posted @ 2016-05-23 11:24 1130136248 阅读(12296) 评论(0) 推荐(1) 编辑

[一起学Hive]之十九-使用Hive API分析HQL的执行计划、Job数量和表的血缘关系
摘要:关系 Hive lxw1234@qq.com 9个月前 (09-01) 2468℃ 1评论 关键字:Hive HQL Job数量、Hive执行计划、Hive LineageInfo 本文介绍使用Hive的API获取一条HQL的最终执行计划,从而获取这条HQL的Job数量,另外,介绍使用API分析一条 阅读全文

posted @ 2016-05-23 11:23 1130136248 阅读(4802) 评论(0) 推荐(0) 编辑

[一起学Hive]之十八-Hive UDF开发
摘要:关键字:Hive udf、UDF、GenericUDF Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。 开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec 阅读全文

posted @ 2016-05-23 11:22 1130136248 阅读(6380) 评论(0) 推荐(0) 编辑

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling
摘要:关键字:Hive数据取样、Hive Sampling、Hive TABLESAMPLE. 在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中的数据取样支持分桶表取样和数据块取样。 16.1 数据块取样(Block Sampling) blo 阅读全文

posted @ 2016-05-23 11:02 1130136248 阅读(1034) 评论(0) 推荐(0) 编辑

[一起学Hive]之十六-Hive的WEB页面接口-HWI
摘要:关键字:Hive WEB接口、Hive HWI Hive提供给用户的交互接口一般有三种:Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface(HWI)。对于开发者来说,最常用的是Hive命令行。如果是将Hive开放给数据分析或数据运营人员做 阅读全文

posted @ 2016-05-23 10:29 1130136248 阅读(2489) 评论(0) 推荐(1) 编辑

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)
摘要:关键字:Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。 表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间 阅读全文

posted @ 2016-05-23 10:23 1130136248 阅读(7378) 评论(0) 推荐(0) 编辑

[一起学Hive]之十四-Hive的元数据表结构详解
摘要:关键字:Hive元数据、Hive元数据表结构 之前在 “[一起学Hive]之一–Hive概述,Hive是什么”中介绍过,Hive自己维护了一套元数据,用户通过HQL查询时候,Hive首先需要结合元数据,将HQL翻译成MapReduce去执行。 本文介绍一下Hive元数据中重要的一些表结构及用途,以H 阅读全文

posted @ 2016-05-22 21:45 1130136248 阅读(23616) 评论(0) 推荐(1) 编辑

基于Hadoop集群的Hive安装
摘要:配置/usr/local/apache-hive-0.13.0-bin/conf下的hive-env.sh,hive-site.xml 进入hive/conf目录 修改hive-site.xml文件 修改如下配置 <property> <name>javax.jdo.option.Connectio 阅读全文

posted @ 2016-05-22 21:30 1130136248 阅读(1589) 评论(0) 推荐(0) 编辑

Hive over HBase和Hive over HDFS性能比较分析
摘要:环境配置: hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node) hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node) hive-0.10.0-cdh4.3.0 一、查询性能比较: query1: select 阅读全文

posted @ 2016-05-22 20:51 1130136248 阅读(978) 评论(0) 推荐(0) 编辑

[一起学Hive]之十三-Hive整合HBase,操作HBase表
摘要:关键字:Hive整合HBase、Hive操作HBase表 十二、Hive整合HBase,操作HBase表 HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。 关于Hive操作HBase表的原理,请参 阅读全文

posted @ 2016-05-22 20:48 1130136248 阅读(11456) 评论(0) 推荐(0) 编辑

[一起学Hive]之十二-Hive SQL的优化
摘要:关键字: Hive 优化、HQL 优化、Hive数据倾斜 十一、Hive SQL的优化 本章只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数、配置等优化。 其中大部分是我之前发过的博客文章,这里整理了下。 11.1 使用分区剪裁、列剪裁 在SELECT中, 阅读全文

posted @ 2016-05-22 20:23 1130136248 阅读(959) 评论(0) 推荐(1) 编辑

[一起学Hive]之十一-Hive中Join的类型和用法
摘要:关键字:Hive Join、Hive LEFT|RIGTH|FULL OUTER JOIN、Hive LEFT SEMI JOIN、Hive Cross Join Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS JOIN,但这两种 阅读全文

posted @ 2016-05-22 20:15 1130136248 阅读(355) 评论(0) 推荐(0) 编辑

[一起学Hive]之十-Hive中Join的原理和机制
摘要:关键词:Hive MapJoin、Hive Common Join、Hive Reduce Join、Hive Join 九、Hive中Join的原理和机制 笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简 阅读全文

posted @ 2016-05-22 20:04 1130136248 阅读(1539) 评论(0) 推荐(0) 编辑

hive的Specified key was too long; max key length is 767 bytes问题解决
摘要:经过查询才知道,是Mysql的字段设置的太长了,于是我把这两个字段的长度改了一下就好了。 建立索引时,数据库计算key的长度是累加所有Index用到的字段的char长度后再按下面比例乘起来不能超过限定的key长度1000: latin1 = 1 byte = 1 character uft8 = 3 阅读全文

posted @ 2016-05-22 11:36 1130136248 阅读(308) 评论(0) 推荐(0) 编辑

HiveQL详解(经典好文)
摘要:HiveQL详解 HiveQL是一种类似SQL的语言, 它与大部分的SQL语法兼容, 但是并不完全支持SQL标准, 如HiveQL不支持更新操作, 也不支持索引和事务, 它的子查询和join操作也很局限, 这是因其底层依赖于Hadoop云平台这一特性决定的, 但其有些特点是SQL所无法企及的。例如多 阅读全文

posted @ 2016-05-22 10:57 1130136248 阅读(524) 评论(0) 推荐(0) 编辑

1 2 3 下一页

导航