Hive - 随笔分类 - 来自遥远的水星

【数仓开发】5-Excel模板生成HiveDDL建表SQL

摘要：根据excel模板生成Hive DDL建表SQL 1.excel模板 2.excel_gen_ddl_sql.py #!/usr/bin/python # -*- coding: utf-8 -*- """ 功能: excel数据仓库物理模型生成 ddl_表名.sql文件输入数据：文件名以「数据模阅读全文

posted @ 2022-08-02 15:04 来自遥远的水星阅读(561) 评论(0) 推荐(0) 编辑

Hive(十二)【参数调优】

摘要：1. Limit 限制调整一般情况下，limit语句还是需要执行整个查询语句，然后再返回部分结果。有一个配置属性可以开启，避免这种情况：对数据源进行抽样。 hive.limit.optimize.enable=true -- 开启对数据源进行采样的功能 hive.limit.row.max.si 阅读全文

posted @ 2022-06-08 10:17 来自遥远的水星阅读(265) 评论(0) 推荐(0) 编辑

Hive(十三)【Hive on Spark 部署搭建】

摘要：Hive on Spark 官网详情：https://cwiki.apache.org//confluence/display/Hive/Hive+on+Spark:+Getting+Started 一.安装Hive 具体安装参考：Hive(一)【基本概念、安装】安装和Spark对应版本一起编译的阅读全文

posted @ 2020-08-14 18:39 来自遥远的水星阅读(3611) 评论(0) 推荐(0) 编辑

Hadoop、Hive【LZO压缩配置和使用】

摘要：一.编译 hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。 0. 环境准备 maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像） gcc-c++ zlib-d 阅读全文

posted @ 2020-07-13 18:51 来自遥远的水星阅读(1238) 评论(0) 推荐(0) 编辑

Hive(十二)【调优】

摘要：1.Fetch抓取 Fetch抓取：Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM emp;在这种情况下，Hive可以简单地读取emp对应的存储目录下的文件，然后输出查询结果到控制台。在%HIVE_HOME%/conf/hive-default.x 阅读全文

posted @ 2020-07-02 14:13 来自遥远的水星阅读(235) 评论(0) 推荐(0) 编辑

Hive(十一)【压缩、存储】

摘要：一.Hadoop的压缩配置 1.MR支持的压缩编码压缩格式算法文件扩展名是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否阅读全文

posted @ 2020-07-02 11:06 来自遥远的水星阅读(225) 评论(0) 推荐(0) 编辑

Hive(九)【自定义函数】

摘要：###自定义函数 Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。用户自定义函数类别分为以下三种 UDF 阅读全文

posted @ 2020-06-30 19:01 来自遥远的水星阅读(1608) 评论(1) 推荐(0) 编辑

Hive(七)【内置函数】

摘要：一.系统内置函数 1.查看系统自带内置函数 show functions; 2.查看函数的具体用法如查看upper函数 desc function extended upper; 二.常用内置函数 1.数学函数 round round(DOUBLE a)：返回对a四舍五入的BIGINT值 roun 阅读全文

posted @ 2020-06-29 21:25 来自遥远的水星阅读(233) 评论(0) 推荐(0) 编辑

Hive(六)【分区表、分桶表】

摘要：一.分区表 1.本质 hive存在问题：hive里面没有索引机制，每次查询的时候，hive会暴力扫描整张表；而分区表的本质就是分目录，按照业务需求，把数据分成多个目录存储，然后查询的时候就可以通过where条件指定对应的分区； 2.创建分区表 create table dept_partition( 阅读全文

posted @ 2020-06-29 19:33 来自遥远的水星阅读(353) 评论(0) 推荐(0) 编辑

Hive(五)【DQL数据查询】

摘要：一. 基本查询 1.1 算数运算符运算符描述 A+B A和B 相加 A-B A减去B A*B A和B 相乘 A/B A除以B A%B A对B取余 A&B A和B按位取与 A|B A和B按位取或 A^B A和B按位取异或 ~A A按位取反案例查询所有员工的薪水然后加1 select sal+1 阅读全文

posted @ 2020-06-28 19:47 来自遥远的水星阅读(211) 评论(0) 推荐(0) 编辑

Hive(四)【DML 数据导入导出】

摘要：一.数据导入 1.1 【load】--向数据中装载数据 load data [local] inpath '数据的路径' [overwrite] into table 表名 [partition('属性'='值'，...)]; --load data:表示加载数据 --local:从本地加载数据到h 阅读全文

posted @ 2020-06-28 18:03 来自遥远的水星阅读(272) 评论(0) 推荐(0) 编辑

Hive(三)【DDL 数据定义】

摘要：一.DDL数据定义 1.库的DDL 1.1创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name --指定数据库名称 [COMMENT database_comment] --指定数据库描述 [LOCATION hdfs_path] --指定创建的数据阅读全文

posted @ 2020-06-27 15:54 来自遥远的水星阅读(195) 评论(0) 推荐(0) 编辑

Hive(二)【数据类型、类型转换】

摘要：一.基本数据类型 HIVE MySQL JAVA 长度例子 TINYINT TINYINT byte 1byte有符号整数 2 SMALINT SMALINT short 2byte有符号整数 20 INT INT int 4byte有符号整数 20 BIGINT BIGINT long 8byt 阅读全文

posted @ 2020-06-26 11:19 来自遥远的水星阅读(6229) 评论(0) 推荐(0) 编辑

DBeaver客户端工具连接Hive

摘要：介绍在hive命令行beeline中写一些很长的查询语句不是很方便，急需一个hive的客户端界面工具 DBeaver 是一个通用的数据库管理工具和 SQL 客户端，支持 MySQL, Hive,PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLD 阅读全文

posted @ 2020-06-25 00:07 来自遥远的水星阅读(1022) 评论(0) 推荐(0) 编辑

Hive(一)【基本概念、安装】

摘要：一. Hive基本概念 1.1 Hive是什么 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。 Hive本质 : Hive其实就是将用户写的HQL，给翻译成对应的mr模板，然后执行这些mr程序,hive底层执行引擎其实就是MapReduc 阅读全文

posted @ 2020-06-23 23:08 来自遥远的水星阅读(681) 评论(0) 推荐(0) 编辑

来自遥远的水星

随笔分类 - Hive

积分与排名

随笔分类

随笔档案

阅读排行榜