随笔分类 - 分布式
摘要:
如果还在为HDFS上存储海量的小文件而烦恼,不烦多留意号称下一代分布式存储技术Apache Ozone,其诞生初衷就是解决HDFS面临棘手问题,本篇从了解其特性和总体架构,基于开发测试需求通过docker和docker-compose方式启动Ozone本地集群,最后通过命令行接口和兼容hadoop命令Ofs操作卷、桶、键、存储读写文件数据。
阅读全文

摘要:
一个适合工业物联网实时采集传感器数据实时分析工业设备的数据实现更好的预测性感知的分布式NoSQL数据库Apache Pinot,先了解其特性和使用场景,然后通过Local和Docker两种方式部署Apache Pinot和验证环境,最后通过实操其批和流式导入数据和利用其控制台端点查询数据。
阅读全文

摘要:
通过Hbase与Cassandra对比,层次展开了解Apache Cassandra特性和使用场景,通过部署但实力和多实例集群进一步理解其运作,最后通过CQL及其客户端命令工具理解其数据模型和数据类型,通过对键空间、表、索引、数据操作熟悉常见CQL语法和使用。
阅读全文

摘要:
本篇先部署Apache Pulsar 最新版本2.11.0的 Locally Standalone,并通过创建Topic、生产消息和消费消息验证基础环境;接着通过二进制也即是所谓裸机部署方式一步步演示如何部署Pulsar的分布式集群,并通过Admin客户端验证基于租户、命名空间一些消息管理和使用简单功能。最后介绍Pulsar 层级存储的工作原理和使用场景,如何使用待续...
阅读全文

摘要:
大数据交互式查询是每个数据分析人员不可或缺的需求,本篇以业界交互式查询的经典之作Presto为研究对象,了解其架构和优缺点及丰富连接器。并通过安装一个协调节点和3个worker节点的分布式集群,使用命令行界面演示hive连接器的查询数据表的示例,最后了解其使用的要点。
阅读全文

摘要:
Ceph实现了分布式统一的存储,既支持对象存储、块设备存储还支持文件系统,不失为目前最成熟稳定的存储解决方案,本篇先了解传统存储问题和Ceph的优势,介绍总体架构和组成部分,说明官网文档部署和部署版本建议,了解几种部署方式,最后通过Cephadm快速部署一个简单暂无存储节点的集群,后续可以在此基础上进行高可用节点的和存储节点的扩缩容
阅读全文

摘要:
有Sqoop和DataX之类数据处理为何还要用Apache SeaTunnel,这就要得益于Apache SeaTunnel依赖Flink和Spark天然分布式处理数据的特性,前两者是单机同步数据不适于海量数据同步,以低代码方式用配置文件就可以启动Flink数据处理应用,本篇从基本概念和原理入手,并通过部署SeaTunnel演示了多个基于Flink的Source和Sink配置,基本掌握如何编写配置使用。
阅读全文

摘要:
基于JDK11的Flink最新版本v15.1,以官网最新文档入手,从为何选择使用Flink为引导线,介绍实时数仓的演变历程,对比Flink和Spark的差异和竞争力。进一步剖析其系统架构、通过无界和有界数据理解,加深对流式分析的认识,了解三大运行模式适用场景,最后理解作业提交完整流程,为下一篇Flink部署和任务提交奠定基础
阅读全文

摘要:
本篇为生产使用的MinIO配置Nginx代理,实战操作如何创建MinIO的用户和安全认证,通过配置MinIO的server信息开始,实操MC客户端常见的命令操作实现浏览桶、创建删除桶、文件上传下载等,最后通过编程SDK使用需求出发,通过Java客户端的实现文件上传下载的示例,最后以MinIO整合SpringBoot启动器的方式实现MinIO常见API的编程开发
阅读全文

摘要:
本篇先了解一个以快著称的云原生对象存储系统,上传下载对象速度只限制于网络带宽,体会强大又极简主义的设计,从MinIO特性和架构设计思想,熟悉其常见应用场景;实战MinIO的快速部署,最后以一个可用生产系统的4个节点每个节点4块磁盘的分布式高可用部署并体验了文件上传和下载的速度。
阅读全文

摘要:
本篇介绍新一代分布式任务工作流调度Apache DolphinScheduler总体架构和设计思想,使用shell工作流演示参数的使用、传递及其优先级,通过数据源管理演示ClickHouse SQL任务类型的工作流使用步骤,最后通过一个邮件告警示例使用DolphinScheduler更加放心...
阅读全文

摘要:
全新一代分布式工作流任务调度平台Apache DolphinScheduler,其为azkaban的完美替换品,本篇从实战目的出发先了解特性和组成部分,然后以二进制的方式部署2个Master3个Worker1个API和1个Alert的生产环境集群,介绍了其监控中心和安全中心必用功能,最后以一个简单的shell依赖工作流整理流程打开使用的大门。
阅读全文

摘要:
本篇介绍SkyWalking v9.1.0的性能剖析、日志、告警的使用示例,开启对于SkyWalking原理的探索,重点讲述SkyWalking利用Java Agent实现无侵入结合使用Byte Buddy对字节码操作,以代码说明Java Agent和Byte Buddy的使用步骤和从常见API,最后以一个统计方法耗时的代码实现无侵入的普通类代理增强。
阅读全文

摘要:
本篇从微服务监控三大要素,了解分布式链路追踪理论基础,SkyWalking与其他常见开源APM系统比较,介绍SkyWalking组成,部署基于ES持久化SkyWalking,通过两个微服务实战示例演示基于Java语言的无侵入Agent配置使用和SkyWalking UI几个常见功能,最后实现一个自定义链路追踪的示例。
阅读全文

摘要:
本篇从基于Seata分布式事务框架实现的AT、TCC、SAGA、XA模式理论基础出发了解其原理、流程和使用场景,并使用Seata最新版本1.5.2和客户端Starter最新版本1.5.2以订单和库存两个微服务实现AT、XA事务模式的完整配置和使用的踩坑示例说明,以Java调试模式说明如AT模式下TC、TM、RM的交互数据。
阅读全文

摘要:
没错,seata最新版本1.5.2也有像Nacos一样的控制台界面了,本篇从本地事务和分布式事务的理论开始,熟悉两阶段提交流程,引出具有TC、TM、RM三大角色分布式解决方案,TC也就是我们SeataServer,从源码包中获取资源文件,详细介绍基于Nacos配置中心和注册中心的MySQL数据库存储可用于生产系统的完整部署步骤,提前踩坑
阅读全文

摘要:
在前面的博客已经熟悉ElasticJob分布式任务的应用,其核心实现为elasticjob-lite-spring-boot-starter,少量配置开箱即用;今天就来模拟封装一个简易的分布式任务调度实现定时任务选主执行和故障自动转移的starter,本篇主要重心在于基于SpringBoot官网标准start封装的模板和步骤。
阅读全文

摘要:
开篇先提出ES生产环境部署需要考虑五个问题,进而一步步展开阐述ES集群规划、节点类型规划、脑裂问题避免、分片和副本设置推荐设置,最后以一个日志采集生产环境实战例子,应用ES索引生命周期策略、索引模板实现索引的动态管理过程。
阅读全文

摘要:
Sentinel是面向分布式服务架构的高可用防护组件,本篇从基础入门,了解其特性、设计理念、工作流程,结合三步骤的代码和注解的示例实现流量控制、熔断降级基础功能,以最新源码打包部署sentinel控制台。
阅读全文

摘要:
本篇重点讲述导入数据到StarRocks几种方式,也通过一个flink-connector-starrocks的简单示例代码了解其导入过程,进而学习数组类型的使用、分布式实现本地Join的使用,最后抛出外部表的使用大门
阅读全文
