Hive - 随笔分类 - 花未全开*月未圆

Hive架构与工作原理

摘要：组成及作用：用户接口：ClientCLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）元数据：Metastore 元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录阅读全文

posted @ 2019-11-29 19:15 花未全开*月未圆阅读(293) 评论(0) 推荐(0)

hive 调优总结

摘要：hive调优是比较大的专题，需要结合实际的业务，数据的类型，分布，质量状况等来实际的考虑如何进行系统性的优化，hive底层是mapreduce，所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑，数据的压缩与存储，sql的优化，hive参数的优化，解决数据的倾斜等。阅读全文

posted @ 2019-11-29 19:10 花未全开*月未圆阅读(960) 评论(0) 推荐(0)

hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

摘要：order by order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。 set hive.mapred.mode=nonstrict; (default value / 默认值) 阅读全文

posted @ 2019-11-22 14:58 花未全开*月未圆阅读(240) 评论(0) 推荐(0)

Hive元数据配置到MySql

摘要：1 驱动拷贝 1．在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包 2．拷贝/opt/software/mysql-libs/mysql-connector-java-5.1.27目录下的mysql-connect 阅读全文

posted @ 2019-10-13 21:55 花未全开*月未圆阅读(758) 评论(0) 推荐(0)

Hive入门

摘要：1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据阅读全文

posted @ 2019-10-13 21:51 花未全开*月未圆阅读(193) 评论(0) 推荐(0)

Hive

摘要：版本：V1.3 第1章 Hive入门 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理阅读全文

posted @ 2019-10-09 21:48 花未全开*月未圆阅读(5) 评论(0) 推荐(0)

Hive性能优化

摘要：链接参考 https://www.cnblogs.com/smartloli/p/4356660.html 阅读全文

posted @ 2019-09-12 22:55 花未全开*月未圆阅读(146) 评论(0) 推荐(0)

Hive 内置函数

摘要：原文见：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算符1.1关系运算符 1.2算术运算符 1.3逻辑运算符 1.4复杂类型函数 1.5对复杂类型函数操作 2.内置函数2.1数学函数 2.2收集函数阅读全文

posted @ 2019-09-11 23:06 花未全开*月未圆阅读(404) 评论(0) 推荐(0)

Hive 12、Hive优化

摘要：要点：优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如阅读全文

posted @ 2019-09-11 23:05 花未全开*月未圆阅读(342) 评论(0) 推荐(0)

Hive 11、Hive嵌入Python

摘要：Hive嵌入Python Python的输入输出都是\t为分隔符，否则会出错，python脚本输入print出规定格式的数据用法为先add file，使用语法为TRANSFORM (name, items) USING 'python test.py' AS (name string, item1 阅读全文

posted @ 2019-09-11 22:51 花未全开*月未圆阅读(471) 评论(0) 推荐(0)

Hive 10、Hive的UDF、UDAF、UDTF

摘要：Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。Count/max/min UDTF(User-Defined Table-G 阅读全文

posted @ 2019-09-11 22:50 花未全开*月未圆阅读(624) 评论(0) 推荐(0)

Hive 9、Hive 在表中添加正则匹配

摘要：在Hive中还有一项比较好用的功能，也是非常重要的功能：在建表的时候可以不指定表的行、字段、列的分隔方式，通过给表指定一段正则表达式，让Hive自动去匹配； 1、创建表 2、日志文件内容 3、导入本地数据 4、查看结果阅读全文

posted @ 2019-09-11 22:47 花未全开*月未圆阅读(697) 评论(0) 推荐(0)

Hive 8、Hive2 beeline 和 Hive jdbc

摘要：1、Hive2 beeline Beeline 要与HiveServer2配合使用，支持嵌入模式和远程模式启动beeline 打开两个Shell窗口，一个启动Hive2 一个beeline连接hive2 启动beeline之后可以尝试连接hiveserver2 2、Hive jdbc 打开Ecli 阅读全文

posted @ 2019-09-11 22:46 花未全开*月未圆阅读(393) 评论(0) 推荐(0)

Hive 7、Hive 的内表、外表、分区

摘要：1、Hive的内表 Hive 的内表，就是正常创建的表，在 http://www.cnblogs.com/raphael5200/p/5208437.html 中已经提到； 2、Hive的外表创建Hive 的外表，需要使用关键字 External： CREATE EXTERNAL TABLE [I 阅读全文

posted @ 2019-09-11 22:42 花未全开*月未圆阅读(1629) 评论(0) 推荐(0)

Hive 6、Hive DML(Data Manipulation Language)

摘要：DML主要是对Hive 表中的数据进行操作的（增删改），但是由于Hadoop的特性，所以单条的修改、删除，其性能会非常的低所以不支持进行级操作；主要说明一下最常用的批量插入数据较为常用的方法： 1、从文件中加载数据例：阅读全文

posted @ 2019-09-11 22:36 花未全开*月未圆阅读(214) 评论(0) 推荐(0)

Hive 5、Hive 的数据类型和 DDL Data Definition Language)

摘要：官方帮助文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL Hive DDL Hive完整的DDL Hive DDL的语方法为类SQL语法，所以标准的SQL语法大多数在Hive中都可用； Hive建表 Hive 阅读全文

posted @ 2019-09-11 22:33 花未全开*月未圆阅读(233) 评论(0) 推荐(0)

Hive 3、Hive 的安装配置(本地derby模式)

摘要：这种方式是最简单的存储方式，只需要在hive-site.xml做如下配置便可; 阅读全文

posted @ 2019-09-11 22:30 花未全开*月未圆阅读(857) 评论(0) 推荐(0)

Hive 2、Hive 的安装配置(本地MySql模式)

摘要：一、前提条件安装了Zookeeper、Hadoop HDFS HA 二、安装Mysql 因为使用量多的是单用户数据库模式，并且数据库使用最多的是mysql 所以在这里选择mysql数据库；三、Hive安装启动hive 如果能正常的显示登录到hive的命令行下，就表示安装成功了；阅读全文

posted @ 2019-09-11 22:29 花未全开*月未圆阅读(382) 评论(0) 推荐(0)

Hive 1、什么是Hive，Hive有什么用

摘要：一、什么是Hive Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据阅读全文

posted @ 2019-09-11 22:25 花未全开*月未圆阅读(1592) 评论(0) 推荐(0)

花未全开*月未圆

谦虚谨慎，戒骄戒躁，稳中求进，悟道行之

随笔分类 - Hive

公告