随笔分类 - 大数据
摘要:
上一篇对Apache Paimon有了基础了解,本身则主要通过实操方式进一步加深理解,具备沉淀后续投入使用的基础知识;进行数据插入和更新操作,基于批和流式多种查询方式如时间旅行和增量查询,并了解相关系统表的查看,最后MySQL和基于Kafka(通过Canal对MySQL数据库实现变更捕获)的CDC集成完整示例演示收尾。
阅读全文

摘要:
本篇介绍一个强大的流数据湖平台,Flink官方开创,发展速度迅速,先了解其基本定义、适用场景和原理,然后基于yarn方式部署和测试,最后通过Catalog管理、创建表和修改多个示例了解基本使用
阅读全文

摘要:
前面我们学习过SeaTunnel这个优秀数据集成平台,今天再来研究一个与之相似开源产品ChunJun,原名为FlinkX其比SeaTunnel开源更早,本篇从了解其概况和特性;然后通过源码编译的方式部署,暂时先通过简单的Local和Standalone两种提交任务方式,通过几个示例一步步演示如何通过Json和SQL两种配置方式实现批流模式,如从MySQL数据源Sink写入HDFS、从Kafka数据源并通过关联ClickHouse表数据转换并最后Sink写入MySQL的使用。
阅读全文

摘要:
相比前面介绍maxwell,实时数据采集中最主流技术非Flink CDC莫属,其直接省去中间的消息中间件如kafka,且支持增量采集也支持全量采集;本篇先介绍CDC的技术和分类,进一步了解其特性和支持丰富数据源,最后通过FLink DataStream和SQL两种编程示例解开入门。
阅读全文

摘要:
数据开发和数据应用创造价值离不开数据的质量,数据质量管理是数据治理重要保障途径,Apache Griffin就是为解决数据质量监控而设计,本篇先了解Apache Griffin定义、特性和架构,然后通过官方提供docker-compose一键部署和体验,通过官网提供批处理和流处理演示操作,最后通过其提供UI管理页面实操一个批处理的数据质量监控示例。
阅读全文

摘要:
如果还在为HDFS上存储海量的小文件而烦恼,不烦多留意号称下一代分布式存储技术Apache Ozone,其诞生初衷就是解决HDFS面临棘手问题,本篇从了解其特性和总体架构,基于开发测试需求通过docker和docker-compose方式启动Ozone本地集群,最后通过命令行接口和兼容hadoop命令Ofs操作卷、桶、键、存储读写文件数据。
阅读全文

摘要:
一个适合工业物联网实时采集传感器数据实时分析工业设备的数据实现更好的预测性感知的分布式NoSQL数据库Apache Pinot,先了解其特性和使用场景,然后通过Local和Docker两种方式部署Apache Pinot和验证环境,最后通过实操其批和流式导入数据和利用其控制台端点查询数据。
阅读全文

摘要:
通过Hbase与Cassandra对比,层次展开了解Apache Cassandra特性和使用场景,通过部署但实力和多实例集群进一步理解其运作,最后通过CQL及其客户端命令工具理解其数据模型和数据类型,通过对键空间、表、索引、数据操作熟悉常见CQL语法和使用。
阅读全文

摘要:
了解Apache Druid的基础概念后,本篇进一步研究其核心架构和核心设计原理部分,了解相关外部依赖,对其数据摄取和查询有一定认识,然后通过搭建分布式集群进一步理解其架构组成,最后用一个示例从HDFS将数据摄取到Druid并演示两种查询方式
阅读全文

摘要:
Apache Druid是⼀款针对海量数据进⾏⾼性能实时分析OLAP引擎的实时分析型数据库,本篇了解其特征和适用场景,并与其他框架横向对比;最后部署一个最新版本25.0.0单机版演示本地文件摄取入库,并演示基于Json API本地查询和SQL两种查询方式
阅读全文

摘要:
前面两篇连续介绍两个数据同步组件后,好事应有三,大满贯收场,本篇介绍主流的异构数据源离线同步工具DataX的框架设计和执行流程,将其与大名鼎鼎大数据同步组件Sqoop做对比,部署安装并通过配置基于MySQL和HDFS互为读写的实例场景和关键配置说明。
阅读全文

摘要:
一个用于企业应用支持实时增量采集和全量采集MySQL数据开源框架Maxwell,功能强于Canal,比Flink CDC更易用。本篇先了解其定义和原理,然后通过安装和环境准备,了解其启动的两种方式,最后实操演示几个maxwell在企业中常用的场景示例。
阅读全文

摘要:
如何你正在为数据采集做技术选型,今天介绍一款功能极其强大性能也高且采用可视化编排的数据集成框架nifi可以列入选型范畴,是数仓开发的强大工具之一,只要使用后就能体会到其丰富的处理器和扩展性。先了解其特性、核心概念和架构,也支持分布式集群,了解常见处理器分类,最后通过源码安装并使用两个简单的处理器演示一个基础入门示例
阅读全文

摘要:
大数据交互式查询是每个数据分析人员不可或缺的需求,本篇以业界交互式查询的经典之作Presto为研究对象,了解其架构和优缺点及丰富连接器。并通过安装一个协调节点和3个worker节点的分布式集群,使用命令行界面演示hive连接器的查询数据表的示例,最后了解其使用的要点。
阅读全文

摘要:
本篇实战Hudi集成Flink SQl编程示例实现从生成器表写入Hudi表,打包集群验证;然后通过Hudi Flink CDC实现采集MySQL binlog日志写入Kafka再入到hudi表的完整示例,了解Hudi Flink的基础调试只是,最后通过Hudi集成Hive实现Flink Hive Catalog双写同步Hive过程。
阅读全文

摘要:
本篇演示了Hudi集成Spark的Scala编程示例,并一步步操作说明如何使用DeltaStreamer从Kafka里读取数据写入到Hudi表的HDFS中,接着集成Flink的环境准备,通过基于yarn-session的Flink的sql-client方式提交任务实现插入数据和流式读取数据,了解字节贡献的Bucket索引和Hudi Catalog。
阅读全文

摘要:
本篇详细描述hoodie数据读写流程,进一步加深对数据湖技术的理解。理论后转战集成Spark的使用,通过spark-shell和spark-sql实现hoodie的插入数据、查询数据、更新数据、删除数据、覆盖数据、时间旅行查询等示例,了解创建表、修改表结构、查询分区、删除分区基本用法,为进一步使用奠定基础。
阅读全文

摘要:
湖仓一体时代来临解决大数据企业发展过程Lambada、Kappa架构的诸多痛点,三大数据湖技术Iceberg、Hudi、Delta Lake发展迅速,本篇则以学习功能较为齐全Hudi 数据湖入手,了解其特性和使用场景,一步步操作编译安装Hudi最新版本0.12.1,并初步了解时间轴、文件布局、索引、表类型、查询类型核心概念。
阅读全文

摘要:
如果你还在头疼数据分析多组件、多集群跨域等问题,推荐研究下华为开源的openlookeng,能够解决企业在面向大数据应用面临的用数难、找数难、取数难的痛点,本篇从openlookeng背景和架构开始,理解其关键技术和应用场景,最后通过安装openlookeng的集群,利用命令行接口验证MySQL和ClickHouse两种连接器的配置。
阅读全文

摘要:
存算分离是下一代企业大数据必然趋势,本篇先简述存算分离背景以及为何要进行存算分离,当前存算分离主要优势和实际应用场景。并归纳分析若干如华为Ocean系列、JuiceFs、HashData等市面上存算分离产品和解决方案。
阅读全文
