摘要: # -*- encoding: utf-8 -*- ''' @File : launcher.py @Time : 2021/11/16 17:55:00 @Author : Shydow @Version : 1.0 @Desc : 3sigma异常值检测 ''' # here put the i 阅读全文
posted @ 2021-11-22 18:19 Shydow 阅读(546) 评论(0) 推荐(0) 编辑
摘要: 由于在实时同步数据过程中,需要对数据进行一次初始化维表关联的操作,需要读取HBase里面的历史数据与维表进行关联,刚开始使用spark做离线处理,现在使用Flink做离线的ETL。 环境: Flink:1.12.2 HBase:2.1.0-cdh6.2.1 pom依赖 <!-- Licensed t 阅读全文
posted @ 2021-11-22 17:28 Shydow 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 依赖 <!-- 相关依赖 --> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.1.1-cdh6.2.1</version> </dependency> <d 阅读全文
posted @ 2021-11-22 15:47 Shydow 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 一、Hive调优策略 架构调优1、执行引擎:Hive默认使用的是MR,可以换为Tez,Tez将多个mapReduce任务合并成一个较大的DAG任务,减少mapreduce迭代过程中文件存储,其他的引擎可以是spark,flink等;2、分区分桶表:对于一张较大的表,将其设计成分区表可以提高查询性能, 阅读全文
posted @ 2021-11-22 15:46 Shydow 阅读(449) 评论(0) 推荐(0) 编辑
摘要: DDL -- 创建数据库,默认数据库地址是/user/hive/warehouse CREATE DATABASE IF NOT EXISTS myhive; -- 指定数据库的地址 CREATE DATABASE set_location_hive LOCATION '/custom' -- 删除 阅读全文
posted @ 2021-11-22 11:11 Shydow 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 架构 CLI用户接口:接受SQL,并返回运行结果 Thrift Server:通过JDBC或者ODBC访问hive MetaStore:hive的元数据存储在关系型数据库中,元数据包括:数据库名,表名及类型,字段名称及数据类型,数据存储位置等 驱动程序: 解析器:使用第三方工具(antlr)将HSQ 阅读全文
posted @ 2021-11-22 09:47 Shydow 阅读(163) 评论(0) 推荐(0) 编辑