摘要: 结论: Text File,Parquet ,ORC Files结合使用,优先使用前两种,对存储及查询性能有极高要求时使用ORC。 存储格式 使用场景 Text File 数据直观,便于查看和编辑,数据量较小的维表可以使用. Parquet 支持深度嵌套,可用于多种数据处理框架(Hive/Spark 阅读全文
posted @ 2024-01-08 17:07 粒子先生 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 概念简介 外部表:删除表时,外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景,便于数据共享。 内部表:删除表时,内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。 分区表:数据较多,为提高计算速度时使用。 内部表&外部表写入流程图 具体流程Demo 以外部表为例: 阅读全文
posted @ 2024-01-08 17:01 粒子先生 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 建表语句,支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p 阅读全文
posted @ 2024-01-08 16:55 粒子先生 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表的垂直划分来减少目标表的宽度,常用的是水平分区. 1. hive建立分区表 create external ta 阅读全文
posted @ 2024-01-08 16:53 粒子先生 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 优缺点: 1.JsonSerDe对json数据格式有严格要求,创建的表结果必须与json结构能对应上,否则会报错。 配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。 必须定义好详细字段嵌套的规则类型,不适合提取ODS原文。 2.g 阅读全文
posted @ 2024-01-08 16:48 粒子先生 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE 阅读全文
posted @ 2024-01-08 16:45 粒子先生 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 简介 StreamingFileSink 提供了将数据分桶写入文件系统的功能。 如何分桶是可以配置,默认使用基于时间的分桶策略,每个小时创建一个新的桶,也可以自定义分桶策略。 文件滚动策略支持两种方式,基于时间和文件大小的DefaultRollingPolicy策略和基于Flink检查点的OnChe 阅读全文
posted @ 2024-01-08 16:36 粒子先生 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 创建用户 groupadd hadoop useradd -g hadoop hadoop 解压编译 wget https://cdn.gethue.com/downloads/hue-4.8.0.tgz PREFIX=/usr/share make install 集成Hive Conf 在/op 阅读全文
posted @ 2024-01-08 16:14 粒子先生 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 要解决的问题 解决HUE操作大数据量Hive表时,执行报错的问题。 为开发人员或数据管理人员提供一个便捷的Flink SQL交互式查询工具,简化SQL验证的流程,进而提高工作效率。 功能介绍 Flink SQL 读写Kafka Flink SQL 读写HDFS Flink SQL 关联 Flink 阅读全文
posted @ 2024-01-08 16:04 粒子先生 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 编译部署 1.从github下载源码 https://github.com/xuxueli/xxl-job git clone https://github.com/xuxueli/xxl-job.git 2.切换版本,修改配置文件 ####调度中心配置文件路径 xxl-job-admin/src/ 阅读全文
posted @ 2024-01-08 15:31 粒子先生 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 转载:https://zhuanlan.zhihu.com/p/103129589?utm_source=wechat_session 为什么要先介绍标签体系? 一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商 阅读全文
posted @ 2024-01-08 15:25 粒子先生 阅读(40) 评论(0) 推荐(0) 编辑
摘要: Dynamic tables are the core concept of Flink’s Table & SQL API for processing both bounded and unbounded data in a unified fashion. Because dynamic ta 阅读全文
posted @ 2024-01-08 15:22 粒子先生 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 安装 下载安装包 wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 解压即可 配置 生成模板 python ./datax.py -r hdfsreader -w mongodbwriter python . 阅读全文
posted @ 2024-01-08 15:17 粒子先生 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 除了主输入PCollection之外,还可以以旁路输入(side inputs)的形式向ParDo转换提供额外的输入。旁路输入是一个额外的输入,DoFn每次处理input PCollection中的一个元素时都可以访问它。当您指定一个side inputs时,您将创建一些其他数据的视图(P 阅读全文
posted @ 2024-01-08 15:11 粒子先生 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 转自:https://blog.csdn.net/xiyuzhanshen123/article/details/96484520 数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如我们的数据该怎么进行规范,元数据又该怎么来管理,每个过程需要哪些系统或者工具来进行配合呢?这些问题都是数据 阅读全文
posted @ 2024-01-08 15:08 粒子先生 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 产品背景 市场分析 元数据管理是数据治理的基础,企业以元数据为基础进行数据治理,能帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。就国内而言,目前完备成熟的元数据产品较少,市场正处于上升期,是抢占市场份额的好时机。 用户痛点 随着大数据技术的发展和日渐成熟,如何进行海 阅读全文
posted @ 2024-01-08 14:31 粒子先生 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 转自:https://blog.csdn.net/weixin_45727359/article/details/127662364 元数据管理是随着数据仓库的建设逐渐完善起来的,这也决定了元数据管理主要集中在数据领域。例如数据结构、数据加工转换关系等。而随着我们对元数据理解的不断深入,其实元数据广 阅读全文
posted @ 2024-01-08 14:25 粒子先生 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 转自:https://www.jianshu.com/p/21207b50084a 一、什么是CWM? 在我们学习一个新东西时,首先得弄懂明白它是用来干什么的?然后通过实例与理论交错学习,CWM——Common Warehouse Metamodel, 很明显翻译过来时公共仓库元模型,CWM的提出主 阅读全文
posted @ 2024-01-08 14:23 粒子先生 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 转自:https://blog.csdn.net/jiangzhenbo/article/details/85255240 这篇文章主要讲数据治理的基础和核心之一:元数据。从关于元数据的三个概念谈起,讲到元数据的分布范围和如何获取元数据,最后从几个常见的应用出发,谈谈元数据的一些实际应用场景。 一、 阅读全文
posted @ 2024-01-08 14:21 粒子先生 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 1. 数据地图 数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。 2. 元数据分析 血缘分析 血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程 阅读全文
posted @ 2024-01-08 14:18 粒子先生 阅读(36) 评论(0) 推荐(0) 编辑