摘要: 一、小文件产生的原因 当文件的大小远远小于HDFS block块的大小(hadoop2:128m)就可以当作是一个小文件;具体产生的原因包括一下: 1)实时计算时,如果窗口开的小,在hdfs上会产生很多小文件 2)离线计算,批处理时,在spark或者mr时,没有设置好partition或者reduc 阅读全文
posted @ 2021-11-26 15:14 Shydow 阅读(1169) 评论(0) 推荐(0) 编辑
摘要: 一、连续登陆问题 -- user_id, date, flag-- data: 1 2019-07-11 1 1 2019-07-12 1 1 2019-07-13 1 1 2019-07-14 1 1 2019-07-15 1 1 2019-07-16 1 1 2019-07-17 1 1 201 阅读全文
posted @ 2021-11-23 22:43 Shydow 阅读(193) 评论(0) 推荐(0) 编辑
摘要: # -*- encoding: utf-8 -*- ''' @File : launcher.py @Time : 2021/11/16 17:55:00 @Author : Shydow @Version : 1.0 @Desc : 3sigma异常值检测 ''' # here put the i 阅读全文
posted @ 2021-11-22 18:19 Shydow 阅读(546) 评论(0) 推荐(0) 编辑
摘要: 由于在实时同步数据过程中,需要对数据进行一次初始化维表关联的操作,需要读取HBase里面的历史数据与维表进行关联,刚开始使用spark做离线处理,现在使用Flink做离线的ETL。 环境: Flink:1.12.2 HBase:2.1.0-cdh6.2.1 pom依赖 <!-- Licensed t 阅读全文
posted @ 2021-11-22 17:28 Shydow 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 依赖 <!-- 相关依赖 --> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.1.1-cdh6.2.1</version> </dependency> <d 阅读全文
posted @ 2021-11-22 15:47 Shydow 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 一、Hive调优策略 架构调优1、执行引擎:Hive默认使用的是MR,可以换为Tez,Tez将多个mapReduce任务合并成一个较大的DAG任务,减少mapreduce迭代过程中文件存储,其他的引擎可以是spark,flink等;2、分区分桶表:对于一张较大的表,将其设计成分区表可以提高查询性能, 阅读全文
posted @ 2021-11-22 15:46 Shydow 阅读(449) 评论(0) 推荐(0) 编辑
摘要: DDL -- 创建数据库,默认数据库地址是/user/hive/warehouse CREATE DATABASE IF NOT EXISTS myhive; -- 指定数据库的地址 CREATE DATABASE set_location_hive LOCATION '/custom' -- 删除 阅读全文
posted @ 2021-11-22 11:11 Shydow 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 架构 CLI用户接口:接受SQL,并返回运行结果 Thrift Server:通过JDBC或者ODBC访问hive MetaStore:hive的元数据存储在关系型数据库中,元数据包括:数据库名,表名及类型,字段名称及数据类型,数据存储位置等 驱动程序: 解析器:使用第三方工具(antlr)将HSQ 阅读全文
posted @ 2021-11-22 09:47 Shydow 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 特殊数据类型 ARRAY,MAP,STRUCT CREATE TABLE employee( name string, salary double, subor array<string>, dedu map<string, double>, address struct<street:string 阅读全文
posted @ 2021-11-21 19:53 Shydow 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 前提 需要安装hadoop和MySQL数据库 安装步骤 解压初始化环境变量 tar -zxvf apache-hive-2.3.4-bin.tar.gz -C /app/export HIVE_HOME=/app/apache-hive-2.3.4-binexport PATH=$PATH:$HIV 阅读全文
posted @ 2021-11-21 17:57 Shydow 阅读(107) 评论(0) 推荐(0) 编辑