Hive - 随笔分类 - Bodi

Hive 11、Hive嵌入Python

摘要：Hive嵌入Python Python的输入输出都是\t为分隔符，否则会出错，python脚本输入print出规定格式的数据用法为先add file，使用语法为TRANSFORM (name, items) USING 'python test.py' AS (name string, item1 阅读全文

posted @ 2016-02-26 22:02 Bodi 阅读(1949) 评论(0) 推荐(0) 编辑

Hive 12、Hive优化

摘要：要点：优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如阅读全文

posted @ 2016-02-26 20:43 Bodi 阅读(769) 评论(0) 推荐(0) 编辑

Hive 10、Hive的UDF、UDAF、UDTF

摘要：Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。Count/max/min UDTF(User-Defined Table-G 阅读全文

posted @ 2016-02-24 22:08 Bodi 阅读(14270) 评论(0) 推荐(2) 编辑

[转] Hive 内置函数

摘要：原文见：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算符1.1关系运算符运算符类型说明 A = B 所有原始类型如果A与B相等,返回TRUE,否则返回FALSE A == B 无失败，因为阅读全文

posted @ 2016-02-24 21:34 Bodi 阅读(483) 评论(0) 推荐(0) 编辑

Hive 9、Hive 在表中添加正则匹配

摘要：在Hive中还有一项比较好用的功能，也是非常重要的功能：在建表的时候可以不指定表的行、字段、列的分隔方式，通过给表指定一段正则表达式，让Hive自动去匹配； 1、创建表 CREATE TABLE apachelog ( dates STRING, times STRING, types STRING 阅读全文

posted @ 2016-02-24 21:06 Bodi 阅读(2578) 评论(1) 推荐(0) 编辑

Hive 8、Hive2 beeline 和 Hive jdbc

摘要：1、Hive2 beeline Beeline 要与HiveServer2配合使用，支持嵌入模式和远程模式启动beeline 打开两个Shell窗口，一个启动Hive2 一个beeline连接hive2 #启动HiverServer2 , ./bin/hiveserver2 [root@node5 阅读全文

posted @ 2016-02-23 23:08 Bodi 阅读(7051) 评论(0) 推荐(0) 编辑

Hive 7、Hive 的内表、外表、分区

摘要：1、Hive的内表 Hive 的内表，就是正常创建的表，在 http://www.cnblogs.com/raphael5200/p/5208437.html 中已经提到； 2、Hive的外表创建Hive 的外表，需要使用关键字 External： CREATE EXTERNAL TABLE [I 阅读全文

posted @ 2016-02-23 22:40 Bodi 阅读(1889) 评论(0) 推荐(0) 编辑

Hive 6、Hive DML(Data Manipulation Language)

摘要：DML主要是对Hive 表中的数据进行操作的（增删改），但是由于Hadoop的特性，所以单条的修改、删除，其性能会非常的低所以不支持进行级操作；阅读全文

posted @ 2016-02-22 22:45 Bodi 阅读(922) 评论(0) 推荐(0) 编辑

Hive 5、Hive 的数据类型和 DDL Data Definition Language)

摘要：官方帮助文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL Hive的数据类型 -- 扩展数据类型data_type : primitive_type | array_type | map_type | str 阅读全文

posted @ 2016-02-02 16:10 Bodi 阅读(668) 评论(0) 推荐(0) 编辑

Hive 3、Hive 的安装配置(本地derby模式)

摘要：这种方式是最简单的存储方式，只需要在hive-site.xml做如下配置便可; $ vim hive-site.xml <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby:; 阅读全文

posted @ 2016-02-02 14:25 Bodi 阅读(3719) 评论(0) 推荐(0) 编辑

Hive 2、Hive 的安装配置(本地MySql模式)

摘要：一、前提条件安装了Zookeeper、Hadoop HDFS HA 安装方法： http://www.cnblogs.com/raphael5200/p/5154325.html 二、安装Mysql 因为使用量多的是单用户数据库模式，并且数据库使用最多的是mysql 所以在这里选择mysql数据库阅读全文

posted @ 2016-02-01 18:09 Bodi 阅读(13234) 评论(0) 推荐(0) 编辑

Hive 1、什么是Hive，Hive有什么用

摘要：

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。阅读全文

posted @ 2016-02-01 14:05 Bodi 阅读(6385) 评论(0) 推荐(0) 编辑

Bodi

随笔分类 - Hive

公告