随笔档案「2024年1月8日」：Hive文件存储格式 ... - 粒子先生

2024年1月8日

摘要：结论： Text File，Parquet ，ORC Files结合使用，优先使用前两种，对存储及查询性能有极高要求时使用ORC。存储格式使用场景 Text File 数据直观，便于查看和编辑，数据量较小的维表可以使用. Parquet 支持深度嵌套，可用于多种数据处理框架（Hive/Spark 阅读全文

posted @ 2024-01-08 17:07 粒子先生阅读(165) 评论(0) 推荐(0)

Hive 数据写入流程

摘要：概念简介外部表：删除表时，外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景，便于数据共享。内部表：删除表时，内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。分区表：数据较多，为提高计算速度时使用。内部表&外部表写入流程图具体流程Demo 以外部表为例：阅读全文

posted @ 2024-01-08 17:01 粒子先生阅读(204) 评论(0) 推荐(0)

Hive 复杂数据类型Array，Map，Struct

摘要：建表语句，支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p 阅读全文

posted @ 2024-01-08 16:55 粒子先生阅读(132) 评论(0) 推荐(0)

hive分区表数据导入

摘要：数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间，主要包括两种分区形式：水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区，一般是通过对表的垂直划分来减少目标表的宽度，常用的是水平分区. 1. hive建立分区表 create external ta 阅读全文

posted @ 2024-01-08 16:53 粒子先生阅读(583) 评论(0) 推荐(0)

Hive写入JSON数据

摘要：优缺点： 1.JsonSerDe对json数据格式有严格要求，创建的表结果必须与json结构能对应上，否则会报错。配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。必须定义好详细字段嵌套的规则类型，不适合提取ODS原文。 2.g 阅读全文

posted @ 2024-01-08 16:48 粒子先生阅读(541) 评论(0) 推荐(0)

Hive Array数据处理

摘要：建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE 阅读全文

posted @ 2024-01-08 16:45 粒子先生阅读(74) 评论(0) 推荐(0)

Flink写文件

摘要：简介 StreamingFileSink 提供了将数据分桶写入文件系统的功能。如何分桶是可以配置，默认使用基于时间的分桶策略，每个小时创建一个新的桶，也可以自定义分桶策略。文件滚动策略支持两种方式，基于时间和文件大小的DefaultRollingPolicy策略和基于Flink检查点的OnChe 阅读全文

posted @ 2024-01-08 16:36 粒子先生阅读(544) 评论(0) 推荐(0)

安装HUE并配置连接Hive&Flink&TIDB

摘要：创建用户 groupadd hadoop useradd -g hadoop hadoop 解压编译 wget https://cdn.gethue.com/downloads/hue-4.8.0.tgz PREFIX=/usr/share make install 集成Hive Conf 在/op 阅读全文

posted @ 2024-01-08 16:14 粒子先生阅读(269) 评论(0) 推荐(0)

HUE中执行Flink SQL

摘要：要解决的问题解决HUE操作大数据量Hive表时，执行报错的问题。为开发人员或数据管理人员提供一个便捷的Flink SQL交互式查询工具，简化SQL验证的流程，进而提高工作效率。功能介绍 Flink SQL 读写Kafka Flink SQL 读写HDFS Flink SQL 关联 Flink 阅读全文

posted @ 2024-01-08 16:04 粒子先生阅读(248) 评论(0) 推荐(0)

任务调度XXL-JOB

摘要：编译部署 1.从github下载源码 https://github.com/xuxueli/xxl-job git clone https://github.com/xuxueli/xxl-job.git 2.切换版本，修改配置文件 ####调度中心配置文件路径 xxl-job-admin/src/ 阅读全文

posted @ 2024-01-08 15:31 粒子先生阅读(106) 评论(0) 推荐(0)

推荐系统之标签体系（转载）

摘要：转载：https://zhuanlan.zhihu.com/p/103129589?utm_source=wechat_session 为什么要先介绍标签体系？一个推荐系统效果好与坏最基本的保障、最基础的是什么？如果让我来回答，一定是标签体系。我这里说的标签主要是针对物料的，对于电商平台来说就是商阅读全文

posted @ 2024-01-08 15:25 粒子先生阅读(365) 评论(0) 推荐(0)

User-defined Sources & Sinks

摘要： Dynamic tables are the core concept of Flink’s Table & SQL API for processing both bounded and unbounded data in a unified fashion. Because dynamic ta 阅读全文

posted @ 2024-01-08 15:22 粒子先生阅读(141) 评论(0) 推荐(0)

DataX试用Mongo→Hdfs&Hdfs→Mongo

摘要：安装下载安装包 wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 解压即可配置生成模板 python ./datax.py -r hdfsreader -w mongodbwriter python . 阅读全文

posted @ 2024-01-08 15:17 粒子先生阅读(149) 评论(0) 推荐(0)

Apache Beam 旁路输入（Side inputs）

摘要：一、介绍除了主输入PCollection之外，还可以以旁路输入（side inputs）的形式向ParDo转换提供额外的输入。旁路输入是一个额外的输入，DoFn每次处理input PCollection中的一个元素时都可以访问它。当您指定一个side inputs时，您将创建一些其他数据的视图（P 阅读全文

posted @ 2024-01-08 15:11 粒子先生阅读(89) 评论(0) 推荐(0)

数据治理9大核心领域（转）

摘要：转自：https://blog.csdn.net/xiyuzhanshen123/article/details/96484520 数据治理不仅需要完善的保障机制，还需要理解具体的治理内容，比如我们的数据该怎么进行规范，元数据又该怎么来管理，每个过程需要哪些系统或者工具来进行配合呢？这些问题都是数据阅读全文

posted @ 2024-01-08 15:08 粒子先生阅读(917) 评论(0) 推荐(0)

元数据管理系统

摘要：产品背景市场分析元数据管理是数据治理的基础，企业以元数据为基础进行数据治理，能帮助企业更好地对数据资产进行管理，理清数据之间的关系，实现精准高效的分析和决策。就国内而言，目前完备成熟的元数据产品较少，市场正处于上升期，是抢占市场份额的好时机。用户痛点随着大数据技术的发展和日渐成熟，如何进行海阅读全文

posted @ 2024-01-08 14:31 粒子先生阅读(192) 评论(0) 推荐(0)

大数据治理技术核心，可扩展的元数据架构设计（转）

摘要：转自：https://blog.csdn.net/weixin_45727359/article/details/127662364 元数据管理是随着数据仓库的建设逐渐完善起来的，这也决定了元数据管理主要集中在数据领域。例如数据结构、数据加工转换关系等。而随着我们对元数据理解的不断深入，其实元数据广阅读全文

posted @ 2024-01-08 14:25 粒子先生阅读(287) 评论(0) 推荐(0)

公共仓库元模型(CWM)（转）

摘要：转自：https://www.jianshu.com/p/21207b50084a 一、什么是CWM？在我们学习一个新东西时，首先得弄懂明白它是用来干什么的？然后通过实例与理论交错学习，CWM——Common Warehouse Metamodel, 很明显翻译过来时公共仓库元模型，CWM的提出主阅读全文

posted @ 2024-01-08 14:23 粒子先生阅读(915) 评论(0) 推荐(0)

数据治理之元数据管理（转）

摘要：转自：https://blog.csdn.net/jiangzhenbo/article/details/85255240 这篇文章主要讲数据治理的基础和核心之一：元数据。从关于元数据的三个概念谈起，讲到元数据的分布范围和如何获取元数据，最后从几个常见的应用出发，谈谈元数据的一些实际应用场景。一、阅读全文

posted @ 2024-01-08 14:21 粒子先生阅读(185) 评论(0) 推荐(0)

元数据管理功能列表

摘要： 1. 数据地图数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现，并通过不同层次的图形展现粒度控制，满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。 2. 元数据分析血缘分析血缘分析（也称血统分析）是指从某一实体出发，往回追溯其处理过程阅读全文

posted @ 2024-01-08 14:18 粒子先生阅读(125) 评论(0) 推荐(0)

元数据分类

摘要： •技术元数据：存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等•业务元数据：业务定义、业务术语、业务规则、业务指标等•管理元数据：数据所有者、数据质量定责、数据安全等级等。描述数据的数据数据业务元数据(描述数据定义的数据) 1. 企业数据标准; 阅读全文

posted @ 2024-01-08 14:17 粒子先生阅读(146) 评论(0) 推荐(0)

元数据与数据治理的关系图

摘要：一、数据治理中的核心元素——元数据元数据（metadata）是关于数据的组织、数据域及其关系的信息，简单来说，元数据就是被用来描述数据的数据。数据治理的前提是要有数据，并且要求数据类型全、量大，并尽可能的覆盖数据流转的各个环节，而元数据是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知阅读全文

posted @ 2024-01-08 14:12 粒子先生阅读(261) 评论(0) 推荐(0)

MOF (Meta Object Facility) 规范（转）

摘要：一、MOF的定义 MOF (Meta Object Facility) 称为元对象设施或者元对象机制，是OMG 组织为了帮助销售商、开发者和用户更好的使用元模型和元数据技术而制定的。 MOF最初是OMG( Object Management Group, 对象管理组织) 在1996年一个征求建议书( 阅读全文

posted @ 2024-01-08 14:10 粒子先生阅读(1078) 评论(0) 推荐(0)

Atlas关系型数据库元数据模型

摘要： [ { "category": "ENTITY", "guid": "00b4a314-1185-4cd4-84e9-20275990d58d", "createdBy": "hadoop", "updatedBy": "hadoop", "createTime": 1615973091411, " 阅读全文

posted @ 2024-01-08 13:41 粒子先生阅读(49) 评论(0) 推荐(0)

Atlas类型系统

摘要：预定义系统类型 Atlas自带了一些预定义的系统类型。我们在前面的部分中看到了一个示例（DataSet）。在本节中，我们将看到更多这些类型并了解它们的重要性。 Referenceable：该类型表示可以使用名为qualifiedName的唯一属性搜索的所有实体。 { "category": "ENT 阅读全文

posted @ 2024-01-08 13:40 粒子先生阅读(208) 评论(0) 推荐(0)

Atlas集成Sqoop

摘要：注册hook 编辑sqoop‐site.xml,添加如下配置 <property> <name>sqoop.job.data.publish.class</name> <value>org.apache.atlas.sqoop.hook.SqoopHook</value> </property> 引阅读全文

posted @ 2024-01-08 13:33 粒子先生阅读(69) 评论(0) 推荐(0)

Atlas集成Hive

摘要：修改atlas-application.properties 添加atlas.hook.hive.synchronous=false atlas.hook.hive.numRetries=3 atlas.hook.hive.queueSize=10000 atlas.cluster.name=pri 阅读全文

posted @ 2024-01-08 13:32 粒子先生阅读(132) 评论(0) 推荐(0)

Atlas初步调研

摘要：简介 Atlas是Hadoop生态的元数据管理框架，有以下功能特性：元数据类型：支持多种Hadoop和非Hadoop元数据的预定义类型，提供元数据定义新类型的能力，类型可以具有原始属性、复杂属性、对象引用，可以从其他类型继承。分类：提供动态创建分类的能力，元数据实体可以与多个分类相关联，具有分类阅读全文

posted @ 2024-01-08 13:29 粒子先生阅读(63) 评论(0) 推荐(0)

聚合查询越来越慢？——详解Elasticsearch的Global Ordinals与High Cardinality

摘要：转自：https://blog.csdn.net/zwgdft/article/details/83215977 Elasticsearch中的概念很多，本文将从笔者在实践过程中遇到的问题出发，逐步详细介绍 Global Ordinals 和 High Cardinality ，这也是笔者的认知过程阅读全文

posted @ 2024-01-08 13:24 粒子先生阅读(556) 评论(0) 推荐(1)

Elasticsearch底层系列之Shard Allocation机制（转）

摘要：转自：https://cloud.tencent.com/developer/article/1361266 背景 Elasticsearch由一些Elasticsearch进程(Node)组成集群，用来存放索引(Index)。为了存放数据量很大的索引，Elasticsearch将Index切分成多阅读全文

posted @ 2024-01-08 13:23 粒子先生阅读(395) 评论(0) 推荐(0)

Elasticsearch存储目录结构深入详解

摘要：在本文中，我们将研究Elasticsearch的各个部分写入数据目录的文件。我们将查看节点，索引和分片级文件，并简要说明其内容，以便了解Elasticsearch写入磁盘的数据。 1、从Elasticsearch路径说起 Elasticsearch配置了多个路径： path.home：运行Elast 阅读全文

posted @ 2024-01-08 13:23 粒子先生阅读(1942) 评论(0) 推荐(0)

hbase java api demo

摘要： pom.xml <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.3.1</version> </dependency> HbaseUtil.java p 阅读全文

posted @ 2024-01-08 13:21 粒子先生阅读(40) 评论(0) 推荐(0)

Day1 - 大规模Elasticsearch集群管理心得（转）

摘要：转自：https://elasticsearch.cn/article/110 【携程旅行网吴晓刚】 ElasticSearch目前在互联网公司主要用于两种应用场景，其一是用于构建业务的搜索功能模块且多是垂直领域的搜索，数据量级一般在千万至数十亿这个级别；其二用于大规模数据的实时OLAP，经典的如阅读全文

posted @ 2024-01-08 13:19 粒子先生阅读(107) 评论(0) 推荐(0)

Es官方文档整理-3.Doc Values和FieldData（转）

摘要：转自：https://www.cnblogs.com/ydxblog/p/8304297.html 1.Doc Values 聚合使用一个叫Doc Values的数据结构。Doc Values使聚合更快、更高效且内存友好。 Doc Values的存在是因为倒排索引只对某些操作是高效的。倒排索引的优势阅读全文

posted @ 2024-01-08 13:18 粒子先生阅读(592) 评论(0) 推荐(0)

Elasticsearch7.X Scripting脚本使用详解（转）

摘要：转自：https://cloud.tencent.com/developer/article/1507715 0、题记除了官方文档，其他能找到的介绍Elasticsearch脚本（Scripting）的资料少之又少。一方面：性能问题。官方文档性能优化中明确指出使用脚本会导致性能低；另一方面：阅读全文

posted @ 2024-01-08 13:18 粒子先生阅读(223) 评论(0) 推荐(0)

screen命令

摘要：创建会话（-m 强制）： screen -dmS session_name 关闭会话： screen -X -S [session # you want to kill] quit 查看所有会话： screen -ls 进入会话： screen -r session_name https://man 阅读全文

posted @ 2024-01-08 13:17 粒子先生阅读(65) 评论(0) 推荐(0)

设计模式（转载）

摘要：转自： https://www.cnblogs.com/wxisme/category/687215.html 阅读全文

posted @ 2024-01-08 13:15 粒子先生阅读(11) 评论(0) 推荐(0)

PostgreSQL安装

摘要：下载安装 yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm yum install -y postgresql12- 阅读全文

posted @ 2024-01-08 13:12 粒子先生阅读(49) 评论(0) 推荐(0)

Running Spark on YARN

摘要： Support for running on YARN (Hadoop NextGen) was added to Spark in version 0.6.0, and improved in subsequent releases. spark自0.60版本开始支持在YARN上运行，并在后续版本阅读全文

posted @ 2024-01-08 13:09 粒子先生阅读(85) 评论(0) 推荐(0)

AI晓

公告