数据仓库 - 随笔分类 - itxiaoshen

摘要：

上一篇对Apache Paimon有了基础了解，本身则主要通过实操方式进一步加深理解，具备沉淀后续投入使用的基础知识；进行数据插入和更新操作，基于批和流式多种查询方式如时间旅行和增量查询，并了解相关系统表的查看，最后MySQL和基于Kafka（通过Canal对MySQL数据库实现变更捕获）的CDC集成完整示例演示收尾。阅读全文

posted @ 2023-08-07 18:23 itxiaoshen 阅读(3502) 评论(1) 推荐(0)

新一代开源流数据湖平台Apache Paimon入门实操-上

摘要：

本篇介绍一个强大的流数据湖平台，Flink官方开创，发展速度迅速，先了解其基本定义、适用场景和原理，然后基于yarn方式部署和测试，最后通过Catalog管理、创建表和修改多个示例了解基本使用阅读全文

posted @ 2023-08-03 18:20 itxiaoshen 阅读(7952) 评论(2) 推荐(1)

国产开源流批统一的数据同步工具Chunjun入门实战

摘要：

前面我们学习过SeaTunnel这个优秀数据集成平台，今天再来研究一个与之相似开源产品ChunJun，原名为FlinkX其比SeaTunnel开源更早，本篇从了解其概况和特性；然后通过源码编译的方式部署，暂时先通过简单的Local和Standalone两种提交任务方式，通过几个示例一步步演示如何通过Json和SQL两种配置方式实现批流模式，如从MySQL数据源Sink写入HDFS、从Kafka数据源并通过关联ClickHouse表数据转换并最后Sink写入MySQL的使用。阅读全文

posted @ 2023-07-04 23:35 itxiaoshen 阅读(1670) 评论(0) 推荐(1)

大数据实时多维OLAP分析数据库Apache Druid入门分享-下

摘要：

了解Apache Druid的基础概念后，本篇进一步研究其核心架构和核心设计原理部分，了解相关外部依赖，对其数据摄取和查询有一定认识，然后通过搭建分布式集群进一步理解其架构组成，最后用一个示例从HDFS将数据摄取到Druid并演示两种查询方式阅读全文

posted @ 2023-02-01 23:39 itxiaoshen 阅读(560) 评论(2) 推荐(0)

大数据实时多维OLAP分析数据库Apache Druid入门分享-上

摘要：

Apache Druid是⼀款针对海量数据进⾏⾼性能实时分析OLAP引擎的实时分析型数据库，本篇了解其特征和适用场景，并与其他框架横向对比；最后部署一个最新版本25.0.0单机版演示本地文件摄取入库,并演示基于Json API本地查询和SQL两种查询方式阅读全文

posted @ 2023-01-31 23:16 itxiaoshen 阅读(1305) 评论(0) 推荐(0)

实时采集MySQL数据之轻量工具Maxwell实操

摘要：

一个用于企业应用支持实时增量采集和全量采集MySQL数据开源框架Maxwell，功能强于Canal，比Flink CDC更易用。本篇先了解其定义和原理，然后通过安装和环境准备，了解其启动的两种方式，最后实操演示几个maxwell在企业中常用的场景示例。阅读全文

posted @ 2022-12-19 23:16 itxiaoshen 阅读(1979) 评论(0) 推荐(3)

可视化编排的数据集成和分发开源框架Nifi轻松入门-上

摘要：

如何你正在为数据采集做技术选型，今天介绍一款功能极其强大性能也高且采用可视化编排的数据集成框架nifi可以列入选型范畴，是数仓开发的强大工具之一，只要使用后就能体会到其丰富的处理器和扩展性。先了解其特性、核心概念和架构，也支持分布式集群，了解常见处理器分类，最后通过源码安装并使用两个简单的处理器演示一个基础入门示例阅读全文

posted @ 2022-12-14 00:01 itxiaoshen 阅读(1356) 评论(0) 推荐(0)

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-后续

摘要：

本篇实战Hudi集成Flink SQl编程示例实现从生成器表写入Hudi表，打包集群验证；然后通过Hudi Flink CDC实现采集MySQL binlog日志写入Kafka再入到hudi表的完整示例，了解Hudi Flink的基础调试只是，最后通过Hudi集成Hive实现Flink Hive Catalog双写同步Hive过程。阅读全文

posted @ 2022-12-03 00:30 itxiaoshen 阅读(571) 评论(1) 推荐(0)

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下

摘要：

本篇演示了Hudi集成Spark的Scala编程示例，并一步步操作说明如何使用DeltaStreamer从Kafka里读取数据写入到Hudi表的HDFS中，接着集成Flink的环境准备，通过基于yarn-session的Flink的sql-client方式提交任务实现插入数据和流式读取数据，了解字节贡献的Bucket索引和Hudi Catalog。阅读全文

posted @ 2022-11-28 23:30 itxiaoshen 阅读(526) 评论(0) 推荐(0)

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

摘要：

本篇详细描述hoodie数据读写流程，进一步加深对数据湖技术的理解。理论后转战集成Spark的使用，通过spark-shell和spark-sql实现hoodie的插入数据、查询数据、更新数据、删除数据、覆盖数据、时间旅行查询等示例，了解创建表、修改表结构、查询分区、删除分区基本用法，为进一步使用奠定基础。阅读全文

posted @ 2022-11-23 22:35 itxiaoshen 阅读(736) 评论(0) 推荐(0)

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-上

摘要：

湖仓一体时代来临解决大数据企业发展过程Lambada、Kappa架构的诸多痛点，三大数据湖技术Iceberg、Hudi、Delta Lake发展迅速，本篇则以学习功能较为齐全Hudi 数据湖入手，了解其特性和使用场景，一步步操作编译安装Hudi最新版本0.12.1，并初步了解时间轴、文件布局、索引、表类型、查询类型核心概念。阅读全文

posted @ 2022-11-15 18:56 itxiaoshen 阅读(1111) 评论(0) 推荐(1)

Hive数据仓库工具基本架构和入门部署详解

摘要：

Hive是一个建立在Hadoop HDFS架构至上的数仓工具，管理元数据但本身不存储数据，本篇了解hive优缺点，进一步理解其组成部分和数据组织形式和Driver，最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门阅读全文

posted @ 2022-09-10 11:22 itxiaoshen 阅读(1008) 评论(0) 推荐(0)

数仓选型必列入考虑的OLAP列式数据库ClickHouse(中)

摘要：

ELK作为老一代日志分析技术栈非常成熟，可以说是最为流行的大数据日志和搜索解决方案，而新一代日志监控选型以MPP架构为主如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战，不乏有许多的大公司如携程，快手已开始把自己的日志解决方案从 ES 迁移到了Clickhouse，本篇将以一个完整实际日志采集的场景进一步打开Clickhouse的技术大门阅读全文

posted @ 2022-05-22 02:31 itxiaoshen 阅读(983) 评论(3) 推荐(3)

数仓选型必列入考虑的OLAP列式数据库ClickHouse（上）

摘要：

又多一款数仓选型，虽然ClickHouse从性能上比不上前面的StarRocks，但还是有其使用场景，技多也不压身。本篇了解ClickHouse特性和性能，并完成一个单机和三台集群环境部署并验证可用，为后续实站提供前提条件阅读全文

posted @ 2022-05-21 01:16 itxiaoshen 阅读(836) 评论(1) 推荐(0)

国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器（下）

摘要：

本篇重点讲述导入数据到StarRocks几种方式，也通过一个flink-connector-starrocks的简单示例代码了解其导入过程，进而学习数组类型的使用、分布式实现本地Join的使用，最后抛出外部表的使用大门阅读全文

posted @ 2022-05-19 22:55 itxiaoshen 阅读(1477) 评论(0) 推荐(0)

itxiaoshen博客

虽然不能成为技术大神，但也要与时俱进保持对于IT新技术的学习追求，一点点积累和自我总结，即使再小的帆也能远航。www.itxiaoshen.com

随笔分类 - 数据仓库

公告