刷新
数据集成的未来:一文搞懂 EtLT 新技术的崛起

博主头像 前瞻性技术通常具有创新性,并受到早期采用者的欢迎,从而提供一定的商业价值。 说到数据集成,有人可能会质疑这有什么好讨论的——这不就是简单的 ETL 吗?从各种数据库中提取数据,进行转换,最后加载到不同的数据仓库中。 随着大数据、数据湖、实时数仓、大规模模型等的兴起,数据集成架构从数据仓库时代的ETL ...

读数据工程之道:设计和构建健壮的数据系统18数据存储系统(上)

博主头像 1. 单机存储和分布式存储 1.1. 存储系统是存在于原材料之上的抽象层次 1.2. 磁盘是一种原始存储材料,而主要的云对象存储平台和HDFS是利用磁盘的存储系统 1.3. 随着数据存储和访问模式变得越来越复杂,并超出了单一服务器能做到的支持,将数据分布到一个以上的服务器上变得很有必要 1.4. 数 ...

应对复杂架构下的监控挑战?统一运维可观测能力是关键!

博主头像 在全球数字化变革背景下,企业需适应数字经济与市场变化,进行系统性数字化转型。在“十四五”规划指导下,企业纷纷探求数字化应用之路,大数据、云计算、人工智能、区块链等技术成了热门话题,其中云运维备受瞩目。 企业在数字化转型中难免会碰到云上系统规划、运维体系建设、云上安全等挑战,因此用可观测性来改进现有监 ...

HDFS 重要机制之 checkpoint

博主头像 核心概念 hdfs checkpoint 机制对于 namenode 元数据的保护至关重要, 是否正常完成检查点是评估 hdfs 集群健康度和风险的重要指标 editslog : 对 hdfs 操作的事务记录,类似于 wal ,edit log文件以 edits_ 开头,后面跟一个txid范围段,并 ...

深入解析Apache DolphinScheduler容错机制

博主头像 简述 Apache Dolphinscheduler Master和Worker都是支持多节点部署,无中心化的设计。 Master主要负责是流程DAG的切分,最终通过RPC将任务分发到Worker节点上以及Worker上任务状态的处理 Worker主要负责是真正任务的执行,最后将任务状态汇报给Mas ...

@dailai,欢迎成为Apache SeaTunnel Committer一员!

博主头像 Apache SeaTunnel社区最近又迎来了一位新Committer,他是来自中电信翼康的大数据架构师,作为医疗健康行业从业者,他给SeaTunnel项目带来了此专业领域相关的技术支持,探索了医疗数据的价值挖掘与AI模型应用与SeaTunnel相结合的潜能。来看看他是如何成为SeaTunnel社 ...

读数据工程之道:设计和构建健壮的数据系统16源系统实际细节(下)

博主头像 1. 数据共享 1.1. 云数据共享的核心概念是,多租户系统支持租户之间共享数据的安全策略 1.2. 任何具有细粒度权限系统的公有云对象存储系统都可以成为数据共享的平台 1.3. 数据共享也简化了数据市场的概念,在几个流行的云和数据平台上都可用 1.4. 数据共享还可以简化组织内的数据管道 1.5. ...

为什么说Kafka还不是完美的实时数据通道

博主头像 本文主要谈谈Kafka用于实时数据通道场景的缺陷,以及如何在架构上进行弥补。 Kafka归属于消息队列类产品,其他竞品还有RabbitMQ、RocketMQ等,总的来说它们都是基于生产者、中介和消费者三种角色,提供高并发、大数据量场景下的消息传递。Kafka诞生自Hadoop生态,与生态中的其他组件 ...

读数据工程之道:设计和构建健壮的数据系统14源系统

博主头像 1. 源系统中的数据生成 1.1. 数据工程师的工作是从源系统获取数据,对其进行处理,使其有助于为下游用例提供服务 1.2. 数据工程师的角色将在很大程度上转向理解数据源和目的地之间的相互作用 1.3. 数据工程的最基本的数据管道任务——将数据从A移动到B 2. 数据源 2.1. 数据是无组织的、缺 ...

SuperSet安装

博主头像 安装Python环境 mkdir /opt/soft curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh 回车之后,一 ...

读数据工程之道:设计和构建健壮的数据系统13无服务器

博主头像 1. 无服务器 1.1. 云供应商的一个大趋势是无服务器,允许开发人员和数据工程师无须在后台管理服务器即可运行应用程序 1.1.1. 无服务器快速将价值投入到其正确的用例 1.2. 无服务器真正开始流行是在2014年AWS Lambda全面投入使用之后 1.2.1. 由于无须管理服务器,只需在无服务 ...

TB 级数据入库无压力:Apache DolphinScheduler 助力 ClickHouse 优化

博主头像 引言 如今,随着大数据、物联网、人工智能等技术的快速发展,数据量呈现指数级增长。企业迫切需要一个既能快速处理大规模数据,又能保障性能稳定的数据库系统。ClickHouse 在数据分析与查询性能方面表现优异,但随着数据规模不断增长,其在数据写入与合并阶段的瓶颈也日渐凸显。 不少企业尝试通过简单的 ...

白鲸开源 WhaleStudio 入选「OSCAR 开源尖峰商业化」案例

博主头像 2024年10月16日,由中国通信标准化协会主办、中国信息通信研究院承办的“2024 OSCAR开源产业大会”在北京成功举办。工业和信息化部信息技术发展司软件产业处处长李琰、中国信息通信研究院党委副书记王晓丽、中国通信标准化协会副理事长兼秘书长代晓慧出席并发表致辞。人民日报出版社副社长赵军、中国电力 ...

读数据工程之道:设计和构建健壮的数据系统11云经济学

博主头像 1. 部署位置 1.1. 当公司在决择在何处搭建技术栈时会有数不清的选择 1.1.1. 除非有令人信服的理由,否则不要选择复杂的多云或混合云策略 1.2. 本地 1.2.1. 当越来越多的初创公司在云技术下诞生,本地系统仍是默认的公司创立地 1.2.2. 公司也需要管理软件系统每几年的升级换代 1. ...

<1···8910···23>