上一页 1 2 3 4 5 6 7 8 9 10 ··· 33 下一页

2022年3月3日

Hudi-通过Hive查询hudi表数据

摘要: 环境准备 集成jar包:hudi-hadoop-mr-bundle-0.10.1.jar,放入$HIVE_HOME/lib目录下 建外部表 create database db_hudi; use db_hudi; CREATE EXTERNAL TABLE IF NOT EXISTS tbl_hu 阅读全文

posted @ 2022-03-03 21:49 嘣嘣嚓 阅读(1638) 评论(0) 推荐(0) 编辑

2022年3月2日

Hudi-通过Spark分析滴滴出行数据

摘要: 工具类 package com.zhen.hudi.didi import org.apache.spark.sql.SparkSession /** * @Author FengZhen * @Date 3/1/22 9:34 PM * @Description SparkSql操作数据(加载读取 阅读全文

posted @ 2022-03-02 21:54 嘣嘣嚓 阅读(411) 评论(0) 推荐(0) 编辑

2022年2月26日

Hudi-数据写操作流程

摘要: 概述 在hudi数据湖框架中支持三种方式写入数据:UPSERT(插入更新)、INSERT(插入)和BULK INSERT(写排序) UPSERT:默认行为,数据先通过index打标(INSERT/UPDATE),有一些启发式算法决定消息的组织以优化文件的大小 INSERT:跳过index,写入效率更 阅读全文

posted @ 2022-02-26 22:13 嘣嘣嚓 阅读(958) 评论(0) 推荐(0) 编辑

Hudi-表的存储类型及比较

摘要: 总述 Hudi提供两类型表:写时复制(Copy on Write, COW)表和读时合并(Merge On Read, MOR)表。 对于Copy-On-Write Table,用户的update会重写数据所在的文件,所以是一个写放大很高,但是读放大为0,适合写少读多的场景。 对于Merge-On- 阅读全文

posted @ 2022-02-26 21:43 嘣嘣嚓 阅读(1516) 评论(0) 推荐(0) 编辑

2022年2月24日

Hudi-核心概念(时间轴、文件管理、索引)

摘要: 总述 hudi提供了hudi表的概念,这些表支持CRUD操作,可以利用现有的大数据集群比如HDFS做数据文件存储,然后使用SparkSQL或Hive等分析引擎进行数据分析查询 hudi表的三个主要组件 a.有序的时间轴元数据,类似于数据库事务日志 b.分层布局的数据文件:实际写入表中的数据 c.索引 阅读全文

posted @ 2022-02-24 22:20 嘣嘣嚓 阅读(911) 评论(0) 推荐(0) 编辑

通过Spark操作Hudi(增、删、改、查、增量查)

摘要: 一、概览 Hudi数据湖框架,基于spark计算引擎,对数据进行CRUD操作,使用官方模拟生成出租车出行数据 任务一:模拟数据,插入Hudi表,采用COW模式 任务二:快照方式查询(Snapshot Query),采用DSL方式 任务三:更新(update)数据 任务四:增量查询数据(Increme 阅读全文

posted @ 2022-02-24 21:35 嘣嘣嚓 阅读(2913) 评论(0) 推荐(1) 编辑

2022年2月16日

Hudi数据管理

摘要: 一、表数据结构 一个hudi表的存储文件分为两类 .hoodie文件:由于CRUD的零散性,每一次的操作都会生成一个文件,这些小文件越来越多后,会严重影响HDFS的性能,Hudi设计了一套文件合并机制。.hoodie文件夹中存放了对应的文件合并操作相关的日志文件。 americas和asia相关的路 阅读全文

posted @ 2022-02-16 21:35 嘣嘣嚓 阅读(788) 评论(0) 推荐(0) 编辑

通过Spark读写Hudi

摘要: 这个更全:Spark 增删改查 Hudi代码 一、使用Hudi环境准备 1.安装HDFS分布式文件系统:存储Hudi数据 Hadoop 2.8.0 首次格式化:hdfs namenode -format ./hadoop-daemon.sh start namenode ./hadoop-daemo 阅读全文

posted @ 2022-02-16 21:27 嘣嘣嚓 阅读(2586) 评论(0) 推荐(0) 编辑

Hudi编译(0.10.1版本)

摘要: 一、编译 1.下载源码 https://www.apache.org/dyn/closer.lua/hudi/0.10.1/hudi-0.10.1.src.tgz 2.编译 mvn clean install -DskipTests -DskipITs -Dscala-2.11 -Dspark3 报 阅读全文

posted @ 2022-02-16 21:19 嘣嘣嚓 阅读(1420) 评论(0) 推荐(0) 编辑

Hudi初始

摘要: 一、Hudi是什么 Hudi(Hadoop Upserts anD Incrementals):用于管理分布式文件系统DFS上大型分析数据集存储。 Hudi是一种针对分析型业务的、扫描优化的数据存储抽象,它能够使DFS数据集在分钟级的时延内支持变更,也支持下游系统对这个数据集的增量处理。 二、Hud 阅读全文

posted @ 2022-02-16 21:16 嘣嘣嚓 阅读(380) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 10 ··· 33 下一页

导航