刷新
Apache SeaTunnel 2.3.8版本正式发布!

博主头像 Apache SeaTunnel 2.3.8 版本现已正式发布!此次版本后,用户将可以使用期待已久的Docker镜像,还可以体验Job级别日志功能,以及其他更新优化的功能。本文将详细介绍 Apache SeaTunnel 2.3.8 版本中的关键更新内容,欢迎更多开发者和用户参与到我们的开源社区中来 ...

读数据工程之道:设计和构建健壮的数据系统09示例和类型

博主头像 1. 数据架构不是凭空设计的 1.1. 数据架构是一门抽象学科,所以它有助于通过示例进行推理 2. 数据仓库 2.1. 一个面向主题的、集成的、非易失性和时变的数据集合,以支持管理决策 2.2. 数据仓库是用于报告和分析的中央数据中心 2.2.1. 数据仓库中的数据通常针对分析用例进行了高度格式化和 ...

Spark任务OOM问题如何解决?

博主头像 大家好,我是 V 哥。在实际的业务场景中,Spark任务出现OOM(Out of Memory) 问题通常是由于任务处理的数据量过大、资源分配不合理或者代码存在性能瓶颈等原因造成的。针对不同的业务场景和原因,可以从以下几个方面进行优化和解决。 一、业务场景及可能的OOM原因分析 数据量过大: 业务场 ...

再见,数据中台,理想还在路上

博主头像 近日,Gartner发布了24年《中国数据分析及人工智能成熟度周期报告》,在成熟度曲线中声明“数据中台”已被淘汰。数据中台,这个曾被奉若圭臬,视为先进架构的标志性建筑,将就此将淡出历史舞台。 有些东西,在它真正消亡前,就已经被遗忘。 其实,早在几年前,国内技术圈已经不再热衷于数据中台概念,一位IT媒 ...

读数据工程之道:设计和构建健壮的数据系统08主要架构概念

博主头像 1. 域和服务 1.1. 域是你正在为其构建的现实世界主题区域 1.2. 服务是一组功能,其目标是完成一项任务 1.3. 一个域可以包含多个服务 1.4. 确定领域中应包含的内容 1.4.1. 确定领域应该包含什么以及要包括哪些服务时,最好的建议是简单地去与用户和利益相关者交谈,倾听他们在说什么,并 ...

白鲸开源WhaleStudio项目获得“创客北京2024”企业组优秀奖,晋级复赛!

博主头像 近日,“创客北京2024”海淀区复赛名单正式公布,白鲸开源凭借其全球领先的云原生DataOps平台——WhaleStudio,荣获企业组优秀奖,并成功进入复赛名单。 此次“创客北京2024”海淀区级赛由中关村科学城管理委员会主办,北京中关村科学城科创服务有限公司与中国北京(海淀)留学人员创业园(海淀 ...

大数据资产管理架构设计篇-来自《数据资产管理核心技术与应用》一书的权威讲解

博主头像 数据资产管理是一项系统而复杂的工程,涉及到元数据、数据血缘、数据质量、数据服务、数据监控、数据安全、数据权限等众多方面,为了更高效的管理好数据资产,因此在很多大型的企业或者组织中,通常会构建一个数据资产管理平台来管理这些各种各样的数据资产,数据资产管理平台通常会包含如下功能: 关注清哥聊技术公众号, ...

Apache DolphinScheduler-1.3.9源码分析(二)

博主头像 引言 随着大数据的发展,任务调度系统成为了数据处理和管理中至关重要的部分。Apache DolphinScheduler 是一款优秀的开源分布式工作流调度平台,在大数据场景中得到广泛应用。 在本文中,我们将对 Apache DolphinScheduler 1.3.9 版本的源码进行深入分析,主要分 ...

流批一体的四块拼图

博主头像 流批一体是数据领域的热门话题,随着实时数据处理需求的不断涌现和Flink等新兴流计算技术的持续发展,流批一体正从技术愿景向具体的、适配不同行业特点的解决方案过渡。 个人认为,流批一体解决方案的重点分为四个方面,数据集成、存储引擎、计算引擎、元数据管理。 数据集成 传统的批量数据集成方式是每日一次的批 ...

读数据工程之道:设计和构建健壮的数据系统04数据工程生命周期(下)

博主头像 1. 获取 1.1. 在了解数据源、所用源系统的特征以及数据的存储方式之后,你需要收集数据 1.2. 数据工程生命周期的下一阶段是从源系统中获取数据 1.2.1. 源系统和获取代表了数据工程生命周期中最重要的瓶颈 1.2.2. 源系统通常不在你的直接控制范围内,可能会随机变得无响应或提供质量差的数据 ...

Apache DolphinScheduler社区9月进展记录

博主头像 各位热爱 Apache DolphinScheduler 的小伙伴们,社区 9 月月报更新啦!这里将记录 Apache DolphinScheduler 社区每月的重要更新,欢迎关注! 月度 Merge Star 感谢以下小伙伴上个月为 Apache DolphinScheduler 做的精彩贡献( ...

Apache SeaTunnel 9月份社区发展记录

博主头像 各位热爱 SeaTunnel 的小伙伴们,9月份社区月报来啦!这里将定期更新SeaTunnel社区每个月的重大进展,欢迎关注! 月度Merge Stars 感谢以下小伙伴上个月为 Apache SeaTunnel 做的精彩贡献(排名不分先后): @ZhangWeike2000,@wuchunfu,@ ...

读数据工程之道:设计和构建健壮的数据系统03数据工程生命周期(上)

博主头像 1. 数据工程生命周期 1.1. 数据领域正在经历新数据技术和实践的爆炸式增长,抽象程度和易用性不断提高 1.2. 由于技术抽象程度的增加,数据工程师将越来越多地成为数据生命周期工程师,根据数据生命周期管理的原则来进行思考和操作 1.3. 数据工程生命周期包括将原始数据成分转化为有用的最终产品的阶段 ...

SeaTunnel如何创建Socket数据同步作业?

博主头像 本文为Apache SeaTunnel Socket Connector的使用文档,旨在帮助用户快速理解和有效利用Socket Connector,助力用户的应用程序实现高效、稳定的网络通信。 Socket是应用层与TCP/IP协议族之间进行通信的中间软件抽象层,它是网络编程的基础,通过Socket ...

<1···91011···23>