刷新
读数据工程之道:设计和构建健壮的数据系统02数据工程师

博主头像 1. 背景和技能 1.1. 数据工程是一个快速发展的领域,关于如何成为一名数据工程师仍然存在很多问题 1.2. 进入数据工程领域的人在教育、职业和技能方面有着不同的背景 1.2.1. 每个进入该领域的人都应该投入大量的时间进行自学 1.3. 从一个邻近的领域转到数据工程是最容易的 1.3.1. 软件 ...

读数据工程之道:设计和构建健壮的数据系统01数据工程概述

博主头像 1. 数据工程 1.1. 自从公司开始使用数据做事,数据工程就以某种形式存在了 1.1.1. 预测性分析、描述性分析和报告 1.2. 数据工程师获取数据、存储数据,并准备数据供数据科学家、分析师和其他人使用 1.3. 数据工程是系统和流程的开发、实施和维护,这些系统和流程接收原始数据并生成支持下游用 ...

读数据湖仓08数据架构的演化

博主头像 1. 数据目录 1.1. 需要将分析基础设施放置在数据目录(Data Catalogue)的结构中 1.1.1. 元数据 1.1.2. 数据模型 1.1.3. 本体 1.1.4. 分类标准 1.2. 数据目录类似于图书馆的图书检索目录 1.2.1. 先通过图书馆的图书检索目录进行查找,以便快速找到所 ...

读数据湖仓07描述性数据

博主头像 1. 描述性数据 1.1. 基础数据中包含不同类型的数据,而不同类型数据的描述性数据也存在显著的差异 1.2. 尽管这些描述性数据存在根本性的差异,但通过描述性数据,我们可以全面了解基础数据中的数据 1.3. 通过分析基础设施中提供的描述性数据可以获得更详细的数据 1.3.1. 分析基础设施是通往详 ...

读数据湖仓06数据集成

博主头像 1. 数据湖仓中的数据集成 1.1. 数据湖仓的总体目标是为每一个人提供支持,包括从普通职员到CEO 1.2. 有了作为基础设施的基础数据,企业等组织才能实现真正的数据驱动 1.3. 提供组织所需的数据,最关键的一环在于提供集成的数据基础 1.3.1. 只将数据扔进数据湖仓就指望它能满足人们的需求是 ...

读数据湖仓05数据需要的层次

博主头像 1. 业务价值 1.1. 技术和商业在这个世界上是相互交织的 1.1.1. 基础数据在商业和技术应用中是不可或缺的 1.2. 技术的存在是为了推动商业的目标和进步,并由企业出资支持 1.2.1. 当技术推动商业发展时,商业会蓬勃发展,技术也会随之繁荣 1.2.2. 当技术发展偏离这个基本模式时,它就 ...

读数据湖仓04数据架构与数据工程

博主头像 1. 大容量存储器 1.1. 几乎是到最后时刻,大容量存储器才被引入基础数据的基础设施中 1.1.1. 分析人员通常不会直接在大容量存储器中进行数据分析 1.1.2. 大容量存储器在基础数据中扮演的角色也特别重要,它能够在许多方面支持数据分析人员自由灵活地完成工作,也为数据湖仓的高效使用奠定了基础 ...

读数据湖仓03不同类型的数据

博主头像 1. 结构化数据 1.1. 结构化数据是数据湖仓中最常见的基础数据之一 1.1.1. 是技术领域中最早出现的数据环境之一 1.2. 每条记录的结构都是相同的,即便不同记录中的内容可能不同,但数据的基本布局完全一样 1.3. 结构化数据环境都经过了优化,计算机能以最优的方式处理结构化数据 1.4. 很 ...

读数据湖仓02数据抽象

博主头像 1. 不同类型的数据 1.1. 不同类型的数据在存储方面有各自的特性,这些特性极大地影响了数据在数据湖仓中的存储和使用方式 1.2. 结构化数据 1.2.1. 在企业等组织中,只有少量的数据是结构化数据 1.2.2. 结构化数据是基于事务的数据,是组织日常业务的副产品 1.3. 文本数据 1.3.1 ...

深入工作流调度的内核

博主头像 在大数据时代,工作流任务调度系统成为了数据处理和业务流程管理的核心组件,在大数据平台的构建和开发过程中尤为重要。随着数据量的激增和业务需求的多样化,合理的任务调度不仅能够提高资源利用率,还能保证业务流程的稳定和高效运行。本文将结合实际场景,探讨目前市面上常见的工作流任务调度及其关键特性。 一、工作流 ...

读数据湖仓01让数据可信

博主头像 1. 让数据可信 1.1. 每个终端用户(End User)都有一个共同的需求:访问想要的数据 1.2. 真的能够相信我正在访问的这些数据吗? 1.2.1. 终端用户很快就会发现,访问数据和相信正在访问的数据是两回事 1.2.2. 访问数据和相信数据不是同一回事 1.2.3. 如果数据不可信,可能会 ...

Apache DolphinScheduler-1.3.9源码分析(一)

博主头像 引言 随着大数据的发展,任务调度系统成为了数据处理和管理中至关重要的部分。Apache DolphinScheduler 是一款优秀的开源分布式工作流调度平台,在大数据场景中得到广泛应用。 在本文中,我们将对 Apache DolphinScheduler 1.3.9 版本的源码进行深入分析,介绍 ...

数据资产管理实施路径盘点,一文读懂如何建设企业数据资产管理体系

博主头像 完备的企业数据资产管理体系,首先依赖于数据资产管理规划及机制等上层设计,其次基于数据资产管理职能,使用有效的数据资产管理工具,将数据转化为数据资产,从而把数据价值真正发挥出来。数据资产管理架构如下图所示: 具体而言,数据资产管理包括数据开发、数据标准管理、数据质量管理、数据治理、数据资产评估、数据资 ...

flink 大批量任务提交 yarn 失败问题

博主头像 问题现象 用户迁移到新集群后,反馈他们开发平台大量 flink 任务提交失败了,当时集群的 yarn 资源是足够的 排查过程 用户是在他们的开发平台上提交的,查看他们失败的任务,发现是他们提交端主动 Kill 的,接着沟通发现他们提交平台有个逻辑就是提交到 yarn 的 flink 任务,如果在 2 ...

Scala安装与环境配置详解教程

本文参考来源: http://mengmianren.com/zhihuishu2020/641069.html Scala运行在java的JVM之上,因此需要先安装Java运行环境 一、JDK8的下载和安装及环境变量配置 使用的jdk版本是:jdk-8u191-windows-i586.exe h ...

中电信翼康基于Apache Dolphinscheduler重构“星海·济世医疗数据中台”实践经验分享

博主头像 文章作者:尚志忠 编辑整理:曾辉 行业背景 随着大数据、云计算、5G、人工智能等技术的快速发展,以及医疗信息化建设的不断深入,数据中台作为打通医疗数据融合壁垒、实现数据互通与共享、构建高效数据应用的关键信息平台,正逐渐成为推动医疗行业数字化转型和创新发展的重要力量。 星海·济世医疗数据中台介绍 中国 ...

<1···101112···23>