摘要:
上一篇对Apache Paimon有了基础了解,本身则主要通过实操方式进一步加深理解,具备沉淀后续投入使用的基础知识;进行数据插入和更新操作,基于批和流式多种查询方式如时间旅行和增量查询,并了解相关系统表的查看,最后MySQL和基于Kafka(通过Canal对MySQL数据库实现变更捕获)的CDC集成完整示例演示收尾。 阅读全文
摘要:
本篇介绍一个强大的流数据湖平台,Flink官方开创,发展速度迅速,先了解其基本定义、适用场景和原理,然后基于yarn方式部署和测试,最后通过Catalog管理、创建表和修改多个示例了解基本使用 阅读全文
摘要:
前面我们学习过SeaTunnel这个优秀数据集成平台,今天再来研究一个与之相似开源产品ChunJun,原名为FlinkX其比SeaTunnel开源更早,本篇从了解其概况和特性;然后通过源码编译的方式部署,暂时先通过简单的Local和Standalone两种提交任务方式,通过几个示例一步步演示如何通过Json和SQL两种配置方式实现批流模式,如从MySQL数据源Sink写入HDFS、从Kafka数据源并通过关联ClickHouse表数据转换并最后Sink写入MySQL的使用。 阅读全文
摘要:
相比前面介绍maxwell,实时数据采集中最主流技术非Flink CDC莫属,其直接省去中间的消息中间件如kafka,且支持增量采集也支持全量采集;本篇先介绍CDC的技术和分类,进一步了解其特性和支持丰富数据源,最后通过FLink DataStream和SQL两种编程示例解开入门。 阅读全文
摘要:
云原生时代分布式和微服务RPC是一项常见技术,本篇先了解grpc基本定义和特点,搭建gRPC Go开发环境,并了解proto文件基本使用和gRPC go语言代码生成,然后通过Go语言代码示例从使用场景演示一元RPC、服务器流式RPC(文件上传)、客户端流式RPC(文件下载)、双向流式RPC(聊天),从而具备gRPC 开发的入门理解。 阅读全文
摘要:
在Go的Web开发世界中,Gin以其简单、高性能一举成为使用最广泛的框架;本篇先了解定位和特性,然后在进行常见使用功能如参数获取和绑定、路由组、中间件、静态资源使用、内容渲染、Cookie和Session等多个代码示例演示,最后通过分析源码中的核心流程和数据结构加深对其整体理解。 阅读全文
摘要:
数据开发和数据应用创造价值离不开数据的质量,数据质量管理是数据治理重要保障途径,Apache Griffin就是为解决数据质量监控而设计,本篇先了解Apache Griffin定义、特性和架构,然后通过官方提供docker-compose一键部署和体验,通过官网提供批处理和流处理演示操作,最后通过其提供UI管理页面实操一个批处理的数据质量监控示例。 阅读全文
摘要:
在GoLang世界中有很多优秀的ORM库,今天就介绍主流之一的GORM三方库,了解其核心功能,然后从其支撑数据类型模型和约定开始巩固其基础,接着以安装gorm库及其mysql驱动为基础编写常见CRUD代码示例,进入了解其事务、转换、分片等知识,最后演示其Json序列化示例。 阅读全文
摘要:
数据管理知识体系之数据仓库为企业数据中台的关键部分,本篇先从数据建设规范入手,接着介绍数仓分层、主题域划分原则,表处理规范和命名规范,最后说明指标定义、指标构成和指标 阅读全文
摘要:
元数据管理在数据治理中非常关键的部分,本篇分享一个现代化元数据管理开源项目datahub,了解其核心功能和概念,进一步理解器其架构和组件,然后从0到1的搭建和使用官方的数据样例演示,最后通过摄取MySQL和ClickHouse的示例打开其探索之门。 阅读全文