摘要:
引言 大家好,我叫张琦,来自每日互动,担任大数据平台架构师。今天我将分享我们团队在基于Apache DolphinScheduler实现ClickHouse零压入库过程中的实践经验。 这个实践项目涉及到两个关键组件:Apache DolphinScheduler和ClickHouse,主要是我们在实 阅读全文
摘要:
在之前的文章中,我们已经介绍了Apache DolphinScheduler海豚调度的基本概念和工作流程,以及Shell任务和SQL任务的实践。感兴趣的朋友可以下滑到最下面,点击感兴趣的文章阅读! 今天,让我们来学习Apache DolphinScheduler中的另一个重要功能:钉钉告警。 钉钉群 阅读全文
摘要:
背景 Dolphinscheduler针对YARN任务,比如说MR、Spark、Flink,甚至是Shell任务,最初都是会判断如果有YARN任务,解析到applicationId。这样就会不单单以判断客户端进程为单一判断依据,还要根据YARN状态进行最终的Dolphinscheduler任务状态判 阅读全文
摘要:
前瞻性技术通常具有创新性,并受到早期采用者的欢迎,从而提供一定的商业价值。 说到数据集成,有人可能会质疑这有什么好讨论的——这不就是简单的 ETL 吗?从各种数据库中提取数据,进行转换,最后加载到不同的数据仓库中。 随着大数据、数据湖、实时数仓、大规模模型等的兴起,数据集成架构从数据仓库时代的ETL 阅读全文
摘要:
简述 Apache Dolphinscheduler Master和Worker都是支持多节点部署,无中心化的设计。 Master主要负责是流程DAG的切分,最终通过RPC将任务分发到Worker节点上以及Worker上任务状态的处理 Worker主要负责是真正任务的执行,最后将任务状态汇报给Mas 阅读全文
摘要:
引言 🚀 如今,随着大数据、物联网、人工智能等技术的快速发展,数据量呈现指数级增长。企业迫切需要一个既能快速处理大规模数据,又能保障性能稳定的数据库系统。ClickHouse 在数据分析与查询性能方面表现优异,但随着数据规模不断增长,其在数据写入与合并阶段的瓶颈也日渐凸显。 不少企业尝试通过简单的 阅读全文
摘要:
在现代数据处理和工作流管理中,Apache DolphinScheduler 以其强大的调度能力和易用性,成为了许多企业和开发者的首选工具。 本文将深入探讨 DolphinScheduler 的进阶使用技巧,包括参数传递、资源中心管理、告警通知配置,以及如何在真实项目中高效使用 DolphinSch 阅读全文
摘要:
DolphinScheduler 是一款强大的开源分布式任务调度系统,广泛应用于大数据领域,用于管理复杂的工作流。本文将详细介绍如何通过 Docker Compose 安装和配置 DolphinScheduler,以便快速搭建并使用这一系统。 1. 环境准备 首先,确保你的系统已经安装了 Docke 阅读全文
摘要:
近日,“创客北京2024”海淀区复赛名单正式公布,白鲸开源凭借其全球领先的云原生DataOps平台——WhaleStudio,荣获企业组优秀奖,并成功进入复赛名单。 此次“创客北京2024”海淀区级赛由中关村科学城管理委员会主办,北京中关村科学城科创服务有限公司与中国北京(海淀)留学人员创业园(海淀 阅读全文
摘要:
Apache DolphinScheduler介绍 Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 Dag背景知识 摘录了一下Dag的offical定义 A 阅读全文