上一页 1 2 3 4 5 6 7 8 ··· 15 下一页
摘要: 结论: Text File,Parquet ,ORC Files结合使用,优先使用前两种,对存储及查询性能有极高要求时使用ORC。 存储格式 使用场景 Text File 数据直观,便于查看和编辑,数据量较小的维表可以使用. Parquet 支持深度嵌套,可用于多种数据处理框架(Hive/Spark 阅读全文
posted @ 2024-01-08 17:07 粒子先生 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 概念简介 外部表:删除表时,外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景,便于数据共享。 内部表:删除表时,内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。 分区表:数据较多,为提高计算速度时使用。 内部表&外部表写入流程图 具体流程Demo 以外部表为例: 阅读全文
posted @ 2024-01-08 17:01 粒子先生 阅读(67) 评论(0) 推荐(0) 编辑
摘要: 建表语句,支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p 阅读全文
posted @ 2024-01-08 16:55 粒子先生 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表的垂直划分来减少目标表的宽度,常用的是水平分区. 1. hive建立分区表 create external ta 阅读全文
posted @ 2024-01-08 16:53 粒子先生 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 优缺点: 1.JsonSerDe对json数据格式有严格要求,创建的表结果必须与json结构能对应上,否则会报错。 配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。 必须定义好详细字段嵌套的规则类型,不适合提取ODS原文。 2.g 阅读全文
posted @ 2024-01-08 16:48 粒子先生 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE 阅读全文
posted @ 2024-01-08 16:45 粒子先生 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 简介 StreamingFileSink 提供了将数据分桶写入文件系统的功能。 如何分桶是可以配置,默认使用基于时间的分桶策略,每个小时创建一个新的桶,也可以自定义分桶策略。 文件滚动策略支持两种方式,基于时间和文件大小的DefaultRollingPolicy策略和基于Flink检查点的OnChe 阅读全文
posted @ 2024-01-08 16:36 粒子先生 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 创建用户 groupadd hadoop useradd -g hadoop hadoop 解压编译 wget https://cdn.gethue.com/downloads/hue-4.8.0.tgz PREFIX=/usr/share make install 集成Hive Conf 在/op 阅读全文
posted @ 2024-01-08 16:14 粒子先生 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 要解决的问题 解决HUE操作大数据量Hive表时,执行报错的问题。 为开发人员或数据管理人员提供一个便捷的Flink SQL交互式查询工具,简化SQL验证的流程,进而提高工作效率。 功能介绍 Flink SQL 读写Kafka Flink SQL 读写HDFS Flink SQL 关联 Flink 阅读全文
posted @ 2024-01-08 16:04 粒子先生 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 编译部署 1.从github下载源码 https://github.com/xuxueli/xxl-job git clone https://github.com/xuxueli/xxl-job.git 2.切换版本,修改配置文件 ####调度中心配置文件路径 xxl-job-admin/src/ 阅读全文
posted @ 2024-01-08 15:31 粒子先生 阅读(11) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 15 下一页