Hudi - 随笔分类 - 嘣嘣嚓

Hudi-Flink CDC将MySQL数据写入hudi

摘要：CDC概念 CDC全称是Change data Cpature，即变更数据捕获，主要面向数据库的变更，是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。 CDC类型 1.基于查询的，客户端会通过SQL方式查询源库表变更数据，然后对外发送。 2.基于日志的，这也是阅读全文

posted @ 2022-03-21 22:10 嘣嘣嚓阅读(2297) 评论(2) 推荐(0)

Hudi-Flink SQL实时读取kafka数据写入Hudi表

摘要：0.进入shell ./sql-client.sh embedded shell 1.建表关联kafka CREATE TABLE order_kafka_source( `orderId` STRING, `userId` STRING, `orderTime` STRING, `ip` STRI 阅读全文

posted @ 2022-03-10 22:33 嘣嘣嚓阅读(741) 评论(0) 推荐(0)

Hudi-Flink SQL实时读取Hudi表数据

摘要：代码如下（hudi表实时写入参考上一篇[Hudi-Flink消费kafka将增量数据实时写入Hudi]） package com.zhen.hudi; import org.apache.flink.table.api.EnvironmentSettings; import org.apache.f 阅读全文

posted @ 2022-03-10 21:44 嘣嘣嚓阅读(1384) 评论(0) 推荐(0)

Hudi-Flink消费kafka将增量数据实时写入Hudi(java)

摘要：零、步骤一、Flink SQL集成Kafka 1.创建topic(一分区一备份) flink-topic 2.准备flink-sql-connector-kafka_2.12-1.13.1.jar，放入flink/lib下 3.启动client,指定jar ./sql-client.sh embe 阅读全文

posted @ 2022-03-09 23:00 嘣嘣嚓阅读(2170) 评论(0) 推荐(0)

Hudi-集成Flink(Flink操作hudi表)

摘要：一、安装部署Flink 1.12 Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。 1.准备tar包 flink-1.13.1-bin-scala_2.12.tgz 2.解压 t 阅读全文

posted @ 2022-03-08 22:22 嘣嘣嚓阅读(1797) 评论(0) 推荐(0)

Hudi-SparkSQL增删改查Hudi表

摘要：进入spark-sql shell ./spark-sql --master local[2] --jars /Users/FengZhen/Desktop/Hadoop/spark/spark-3.0.3-bin-hadoop2.7/jars/spark-avro_2.12-3.0.3.jar,/ 阅读全文

posted @ 2022-03-07 21:41 嘣嘣嚓阅读(3619) 评论(0) 推荐(0)

Hudi-StructuredStreaming流式写入Hudi

摘要：场景实时产生的数据写入到Kafka，由Spark实时读取Kafka的数据，写入hudi 实现 package com.zhen.hudi.streaming import com.zhen.hudi.didi.SparkUtils import org.apache.hudi.DataSource 阅读全文

posted @ 2022-03-03 22:59 嘣嘣嚓阅读(509) 评论(0) 推荐(0)

Hudi-通过Hive查询hudi表数据

摘要：环境准备集成jar包：hudi-hadoop-mr-bundle-0.10.1.jar，放入$HIVE_HOME/lib目录下建外部表 create database db_hudi; use db_hudi; CREATE EXTERNAL TABLE IF NOT EXISTS tbl_hu 阅读全文

posted @ 2022-03-03 21:49 嘣嘣嚓阅读(1831) 评论(0) 推荐(0)

Hudi-通过Spark分析滴滴出行数据

摘要：工具类 package com.zhen.hudi.didi import org.apache.spark.sql.SparkSession /** * @Author FengZhen * @Date 3/1/22 9:34 PM * @Description SparkSql操作数据（加载读取阅读全文

posted @ 2022-03-02 21:54 嘣嘣嚓阅读(543) 评论(0) 推荐(0)

Hudi-数据写操作流程

摘要：概述在hudi数据湖框架中支持三种方式写入数据：UPSERT（插入更新）、INSERT（插入）和BULK INSERT（写排序） UPSERT：默认行为，数据先通过index打标（INSERT/UPDATE），有一些启发式算法决定消息的组织以优化文件的大小 INSERT：跳过index，写入效率更阅读全文

posted @ 2022-02-26 22:13 嘣嘣嚓阅读(1193) 评论(0) 推荐(0)

Hudi-表的存储类型及比较

摘要：总述 Hudi提供两类型表：写时复制(Copy on Write, COW)表和读时合并(Merge On Read, MOR)表。对于Copy-On-Write Table，用户的update会重写数据所在的文件，所以是一个写放大很高，但是读放大为0，适合写少读多的场景。对于Merge-On- 阅读全文

posted @ 2022-02-26 21:43 嘣嘣嚓阅读(2171) 评论(0) 推荐(0)

Hudi-核心概念(时间轴、文件管理、索引)

摘要：总述 hudi提供了hudi表的概念，这些表支持CRUD操作，可以利用现有的大数据集群比如HDFS做数据文件存储，然后使用SparkSQL或Hive等分析引擎进行数据分析查询 hudi表的三个主要组件 a.有序的时间轴元数据，类似于数据库事务日志 b.分层布局的数据文件：实际写入表中的数据 c.索引阅读全文

posted @ 2022-02-24 22:20 嘣嘣嚓阅读(1091) 评论(0) 推荐(0)

通过Spark操作Hudi(增、删、改、查、增量查)

摘要：一、概览 Hudi数据湖框架，基于spark计算引擎，对数据进行CRUD操作，使用官方模拟生成出租车出行数据任务一：模拟数据，插入Hudi表，采用COW模式任务二：快照方式查询(Snapshot Query)，采用DSL方式任务三：更新(update)数据任务四：增量查询数据(Increme 阅读全文

posted @ 2022-02-24 21:35 嘣嘣嚓阅读(3607) 评论(0) 推荐(1)

Hudi数据管理

摘要：一、表数据结构一个hudi表的存储文件分为两类 .hoodie文件：由于CRUD的零散性，每一次的操作都会生成一个文件，这些小文件越来越多后，会严重影响HDFS的性能，Hudi设计了一套文件合并机制。.hoodie文件夹中存放了对应的文件合并操作相关的日志文件。 americas和asia相关的路阅读全文

posted @ 2022-02-16 21:35 嘣嘣嚓阅读(993) 评论(0) 推荐(0)

通过Spark读写Hudi

摘要：这个更全：Spark 增删改查 Hudi代码一、使用Hudi环境准备 1.安装HDFS分布式文件系统：存储Hudi数据 Hadoop 2.8.0 首次格式化：hdfs namenode -format ./hadoop-daemon.sh start namenode ./hadoop-daemo 阅读全文

posted @ 2022-02-16 21:27 嘣嘣嚓阅读(3065) 评论(0) 推荐(0)

Hudi编译(0.10.1版本)

摘要：一、编译 1.下载源码 https://www.apache.org/dyn/closer.lua/hudi/0.10.1/hudi-0.10.1.src.tgz 2.编译 mvn clean install -DskipTests -DskipITs -Dscala-2.11 -Dspark3 报阅读全文

posted @ 2022-02-16 21:19 嘣嘣嚓阅读(1531) 评论(0) 推荐(0)

Hudi初始

摘要：一、Hudi是什么 Hudi（Hadoop Upserts anD Incrementals）：用于管理分布式文件系统DFS上大型分析数据集存储。 Hudi是一种针对分析型业务的、扫描优化的数据存储抽象，它能够使DFS数据集在分钟级的时延内支持变更，也支持下游系统对这个数据集的增量处理。二、Hud 阅读全文

posted @ 2022-02-16 21:16 嘣嘣嚓阅读(430) 评论(0) 推荐(0)

什么是数据湖？

摘要：1.什么是数据湖？定义：一个以原始格式(通常是对象快或文件)存储数据的系统或存储库，通常是所有企业数据的单一存储数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(email、文档、pdf)和二进制数据(图像、音频、视频) 数据湖越来阅读全文

posted @ 2022-02-16 21:13 嘣嘣嚓阅读(771) 评论(0) 推荐(0)

随笔分类 - Hudi