随笔分类 -  Hive

摘要:根据excel模板生成Hive DDL建表SQL 1.excel模板 2.excel_gen_ddl_sql.py #!/usr/bin/python # -*- coding: utf-8 -*- """ 功能: excel数据仓库物理模型生成 ddl_表名.sql文件 输入数据:文件名以「数据模 阅读全文
posted @ 2022-08-02 15:04 来自遥远的水星 阅读(561) 评论(0) 推荐(0) 编辑
摘要:1. Limit 限制调整 一般情况下,limit语句还是需要执行整个查询语句,然后再返回部分结果。 有一个配置属性可以开启,避免这种情况:对数据源进行抽样。 hive.limit.optimize.enable=true -- 开启对数据源进行采样的功能 hive.limit.row.max.si 阅读全文
posted @ 2022-06-08 10:17 来自遥远的水星 阅读(265) 评论(0) 推荐(0) 编辑
摘要:Hive on Spark 官网详情:https://cwiki.apache.org//confluence/display/Hive/Hive+on+Spark:+Getting+Started 一.安装Hive 具体安装参考:Hive(一)【基本概念、安装】 安装和Spark对应版本一起编译的 阅读全文
posted @ 2020-08-14 18:39 来自遥远的水星 阅读(3611) 评论(0) 推荐(0) 编辑
摘要:一.编译 hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 0. 环境准备 maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像) gcc-c++ zlib-d 阅读全文
posted @ 2020-07-13 18:51 来自遥远的水星 阅读(1238) 评论(0) 推荐(0) 编辑
摘要:1.Fetch抓取 Fetch抓取:Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。 在%HIVE_HOME%/conf/hive-default.x 阅读全文
posted @ 2020-07-02 14:13 来自遥远的水星 阅读(235) 评论(0) 推荐(0) 编辑
摘要:一.Hadoop的压缩配置 1.MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否 阅读全文
posted @ 2020-07-02 11:06 来自遥远的水星 阅读(225) 评论(0) 推荐(0) 编辑
摘要:###自定义函数 Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 用户自定义函数类别分为以下三种 UDF 阅读全文
posted @ 2020-06-30 19:01 来自遥远的水星 阅读(1608) 评论(1) 推荐(0) 编辑
摘要:一.系统内置函数 1.查看系统自带内置函数 show functions; 2.查看函数的具体用法 如查看upper函数 desc function extended upper; 二.常用内置函数 1.数学函数 round round(DOUBLE a):返回对a四舍五入的BIGINT值 roun 阅读全文
posted @ 2020-06-29 21:25 来自遥远的水星 阅读(233) 评论(0) 推荐(0) 编辑
摘要:一.分区表 1.本质 hive存在问题:hive里面没有索引机制,每次查询的时候,hive会暴力扫描整张表;而分区表的本质就是分目录,按照业务需求,把数据分成多个目录存储,然后查询的时候就可以通过where条件指定对应的分区; 2.创建分区表 create table dept_partition( 阅读全文
posted @ 2020-06-29 19:33 来自遥远的水星 阅读(353) 评论(0) 推荐(0) 编辑
摘要:一. 基本查询 1.1 算数运算符 运算符 描述 A+B A和B 相加 A-B A减去B A*B A和B 相乘 A/B A除以B A%B A对B取余 A&B A和B按位取与 A|B A和B按位取或 A^B A和B按位取异或 ~A A按位取反 案例 查询所有员工的薪水然后加1 select sal+1 阅读全文
posted @ 2020-06-28 19:47 来自遥远的水星 阅读(211) 评论(0) 推荐(0) 编辑
摘要:一.数据导入 1.1 【load】--向数据中装载数据 load data [local] inpath '数据的路径' [overwrite] into table 表名 [partition('属性'='值',...)]; --load data:表示加载数据 --local:从本地加载数据到h 阅读全文
posted @ 2020-06-28 18:03 来自遥远的水星 阅读(272) 评论(0) 推荐(0) 编辑
摘要:一.DDL数据定义 1.库的DDL 1.1创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name --指定数据库名称 [COMMENT database_comment] --指定数据库描述 [LOCATION hdfs_path] --指定创建的数据 阅读全文
posted @ 2020-06-27 15:54 来自遥远的水星 阅读(195) 评论(0) 推荐(0) 编辑
摘要:一.基本数据类型 HIVE MySQL JAVA 长度 例子 TINYINT TINYINT byte 1byte有符号整数 2 SMALINT SMALINT short 2byte有符号整数 20 INT INT int 4byte有符号整数 20 BIGINT BIGINT long 8byt 阅读全文
posted @ 2020-06-26 11:19 来自遥远的水星 阅读(6229) 评论(0) 推荐(0) 编辑
摘要:介绍 在hive命令行beeline中写一些很长的查询语句不是很方便,急需一个hive的客户端界面工具 DBeaver 是一个通用的数据库管理工具和 SQL 客户端,支持 MySQL, Hive,PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLD 阅读全文
posted @ 2020-06-25 00:07 来自遥远的水星 阅读(1022) 评论(0) 推荐(0) 编辑
摘要:一. Hive基本概念 1.1 Hive是什么 Hive是基于Hadoop的一个数据仓库工具 ,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 Hive本质 : Hive其实就是将用户写的HQL,给翻译成对应的mr模板,然后执行这些mr程序,hive底层执行引擎其实就是MapReduc 阅读全文
posted @ 2020-06-23 23:08 来自遥远的水星 阅读(681) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示