大数据 - 第6页 - 网站分类

袋鼠云产品功能更新报告12期｜让数据资产管理更高效

本期，我们更新和优化了数据资产平台相关功能，为您提供更高效的产品能力。以下为第12期袋鼠云产品功能更新报告，请继续阅读。一、【元数据】重点更新｜01 元数据管理优化，支持配置表生命周期之前系统中缺少一个可以基于数据源和数据库维度，批量配置数据表生命周期的入口，导致用户在处理大量数据表时会非常耗 ...

倒计时1天 | 袋鼠云秋季发布会明日10:00开幕，我们云上见！

在当今时代，AI 的发展如汹涌浪潮，其速度之快超越了任何历史时期。它以前所未有的迅猛之势，渗入到各个领域的不同场景之中，悄然重塑着商业模式与人们的生活方式。在 AI 逐渐成为企业基础属性的背景下，袋鼠云举办秋季发布会，以“AI驱动，数智未来”为主题，旨在深度探讨如何凭借 AI 实现新的飞跃，重塑企 ...

全球视野不断拓展！Apache SeaTunnel社区迎来印度籍Committer

好消息！社区最近迎来了一位印度籍 Committer——穆罕默德·阿尔沙德（Mohammad Arshad）！阿尔沙德来自班加罗尔，现任 Visa 公司数据工程师（高级顾问级别），在大数据领域拥有丰富的经验。作为全球最大的支付处理公司之一，Visa 在印度的数字支付和金融科技领域占有重要地位。阿 ...

读数据工程之道：设计和构建健壮的数据系统23批量获取的考虑因素

1. 批量获取的考虑因素 1.1. 批量获取，通常是获取数据的一种便捷方式 1.1.1. 通过从源系统中抽取一个数据子集，根据时间间隔或累积数据的大小来获取数据 1.2. 基于时间间隔的批量获取在传统ETL的数据仓库中很普遍 1.2.1. 每天在非工作时间（也可以按其他频率）处理一次数据，目的是提供 ...

如何实现Dolphinscheduler YARN Task状态跟踪？

背景 Dolphinscheduler针对YARN任务，比如说MR、Spark、Flink，甚至是Shell任务，最初都是会判断如果有YARN任务，解析到applicationId。这样就会不单单以判断客户端进程为单一判断依据，还要根据YARN状态进行最终的Dolphinscheduler任务状态判 ...

读数据工程之道：设计和构建健壮的数据系统22获取阶段考虑因素

1. 有边界与无边界数据 1.1. 无边界数据是现实中存在的数据，是事件发生时的数据，要么是间断的，要么是连续的、持续的和流动的 1.2. 有边界数据是跨越某种边界（如时间）对数据进行归类的一种便捷方式 1.2.1. 所有的数据在有边界之前都是无边界的 1.3. 长期以来，业务流程通过切割离散的批次 ...

读数据工程之道：设计和构建健壮的数据系统21数据获取

1. 数据获取 1.1. 数据获取是将数据从一个地方移动到另一个地方的过程 1.1.1. 数据获取与系统内部获取是不同的 1.2. 数据获取是数据工程生命周期中将数据从源系统移入存储的一个中间步骤 1.3. 数据集成则是将来自不同来源系统的数据组合到一个新的数据集 1.4. 数据获取的核心是数据管道 ...

读数据工程之道：设计和构建健壮的数据系统20数据工程存储抽象

1. 数据工程存储抽象 1.1. 数据工程存储抽象是数据组织和查询模式，位于数据工程生命周期的核心，建立在之前讨论的数据存储系统之上 1.2. 关键的考虑 1.2.1. 目的和用例 1.2.1.1. 必须首先确定存储数据的目的 1.2.2. 更新模式 1.2.2.1. 是否针对批量更新、流式插入或上 ...

数据集成的未来：一文搞懂 EtLT 新技术的崛起

前瞻性技术通常具有创新性，并受到早期采用者的欢迎，从而提供一定的商业价值。说到数据集成，有人可能会质疑这有什么好讨论的——这不就是简单的 ETL 吗？从各种数据库中提取数据，进行转换，最后加载到不同的数据仓库中。随着大数据、数据湖、实时数仓、大规模模型等的兴起，数据集成架构从数据仓库时代的ETL ...

读数据工程之道：设计和构建健壮的数据系统19数据存储系统 (下）

1. 对象存储 1.1. 对象存储包含各种形状和大小的对象 1.1.1. Amazon S3、Azure Blob Storage和Google Cloud Storage(GCS)是广泛使用的对象存储 1.1.2. 许多云数据仓库（以及越来越多的数据库）利用对象存储作为其存储层，而云数据湖通常位于 ...

读数据工程之道：设计和构建健壮的数据系统18数据存储系统(上）

1. 单机存储和分布式存储 1.1. 存储系统是存在于原材料之上的抽象层次 1.2. 磁盘是一种原始存储材料，而主要的云对象存储平台和HDFS是利用磁盘的存储系统 1.3. 随着数据存储和访问模式变得越来越复杂，并超出了单一服务器能做到的支持，将数据分布到一个以上的服务器上变得很有必要 1.4. 数 ...

读数据工程之道：设计和构建健壮的数据系统17存储的原材料

1. 存储 1.1. 存储是数据工程生命周期的基石 1.1.1. 是数据获取、转换和服务主要阶段的基础 1.1.1.1. 当构建数据管道时，随着数据经过获取、转换和服务阶段，工程师会选择适当的抽象来存储他们的数据 1.1.2. 当数据在生命周期中移动时，它会被多次存储 1.1.2.1. 必须在存储中 ...

应对复杂架构下的监控挑战？统一运维可观测能力是关键！

在全球数字化变革背景下，企业需适应数字经济与市场变化，进行系统性数字化转型。在“十四五”规划指导下，企业纷纷探求数字化应用之路，大数据、云计算、人工智能、区块链等技术成了热门话题，其中云运维备受瞩目。企业在数字化转型中难免会碰到云上系统规划、运维体系建设、云上安全等挑战，因此用可观测性来改进现有监 ...

HDFS 重要机制之 checkpoint

核心概念 hdfs checkpoint 机制对于 namenode 元数据的保护至关重要, 是否正常完成检查点是评估 hdfs 集群健康度和风险的重要指标 editslog : 对 hdfs 操作的事务记录，类似于 wal ，edit log文件以 edits_ 开头，后面跟一个txid范围段，并 ...

深入解析Apache DolphinScheduler容错机制

简述 Apache Dolphinscheduler Master和Worker都是支持多节点部署，无中心化的设计。 Master主要负责是流程DAG的切分，最终通过RPC将任务分发到Worker节点上以及Worker上任务状态的处理 Worker主要负责是真正任务的执行，最后将任务状态汇报给Mas ...

@dailai，欢迎成为Apache SeaTunnel Committer一员！

Apache SeaTunnel社区最近又迎来了一位新Committer，他是来自中电信翼康的大数据架构师，作为医疗健康行业从业者，他给SeaTunnel项目带来了此专业领域相关的技术支持，探索了医疗数据的价值挖掘与AI模型应用与SeaTunnel相结合的潜能。来看看他是如何成为SeaTunnel社 ...

读数据工程之道：设计和构建健壮的数据系统16源系统实际细节（下）

1. 数据共享 1.1. 云数据共享的核心概念是，多租户系统支持租户之间共享数据的安全策略 1.2. 任何具有细粒度权限系统的公有云对象存储系统都可以成为数据共享的平台 1.3. 数据共享也简化了数据市场的概念，在几个流行的云和数据平台上都可用 1.4. 数据共享还可以简化组织内的数据管道 1.5. ...

为什么说Kafka还不是完美的实时数据通道

本文主要谈谈Kafka用于实时数据通道场景的缺陷，以及如何在架构上进行弥补。 Kafka归属于消息队列类产品，其他竞品还有RabbitMQ、RocketMQ等，总的来说它们都是基于生产者、中介和消费者三种角色，提供高并发、大数据量场景下的消息传递。Kafka诞生自Hadoop生态，与生态中的其他组件 ...

读数据工程之道：设计和构建健壮的数据系统15源系统实际细节（上）

1. 数据库 1.1. 数据库管理系统 1.1.1. 用于存储和提供数据的数据库系统 1.1.2. 简称DBMS，它由存储引擎、查询优化器、灾难恢复和其他管理数据库系统的关键组件组成 1.1.2.1. 查询 1.1.2.2. 查询优化器 1.1.2.3. 扩展和分发 1.1.2.4. 模型 1.1. ...

读数据工程之道：设计和构建健壮的数据系统14源系统

1. 源系统中的数据生成 1.1. 数据工程师的工作是从源系统获取数据，对其进行处理，使其有助于为下游用例提供服务 1.2. 数据工程师的角色将在很大程度上转向理解数据源和目的地之间的相互作用 1.3. 数据工程的最基本的数据管道任务——将数据从A移动到B 2. 数据源 2.1. 数据是无组织的、缺 ...