大数据 - 第19页 - 网站分类

快速搭建hadoop,zk,hbase的基础集群

1. ZK集群，Hadoop集群，Hbase集群安装 Linux121 Linux122 Linux123 Hadoop ✔ ✔ ✔ MySQL ✔ ZK ✔ ✔ ✔ HBASE ✔ ✔ ✔ 1.1 安装Vmware，安装虚拟机集群 1.1.1 安装 (VMware-workstation-full ...

读数据工程之道：设计和构建健壮的数据系统09示例和类型

1. 数据架构不是凭空设计的 1.1. 数据架构是一门抽象学科，所以它有助于通过示例进行推理 2. 数据仓库 2.1. 一个面向主题的、集成的、非易失性和时变的数据集合，以支持管理决策 2.2. 数据仓库是用于报告和分析的中央数据中心 2.2.1. 数据仓库中的数据通常针对分析用例进行了高度格式化和 ...

Spark任务OOM问题如何解决？

大家好，我是 V 哥。在实际的业务场景中，Spark任务出现OOM（Out of Memory）问题通常是由于任务处理的数据量过大、资源分配不合理或者代码存在性能瓶颈等原因造成的。针对不同的业务场景和原因，可以从以下几个方面进行优化和解决。一、业务场景及可能的OOM原因分析数据量过大：业务场 ...

再见，数据中台，理想还在路上

近日，Gartner发布了24年《中国数据分析及人工智能成熟度周期报告》，在成熟度曲线中声明“数据中台”已被淘汰。数据中台，这个曾被奉若圭臬，视为先进架构的标志性建筑，将就此将淡出历史舞台。有些东西，在它真正消亡前，就已经被遗忘。其实，早在几年前，国内技术圈已经不再热衷于数据中台概念，一位IT媒 ...

读数据工程之道：设计和构建健壮的数据系统08主要架构概念

1. 域和服务 1.1. 域是你正在为其构建的现实世界主题区域 1.2. 服务是一组功能，其目标是完成一项任务 1.3. 一个域可以包含多个服务 1.4. 确定领域中应包含的内容 1.4.1. 确定领域应该包含什么以及要包括哪些服务时，最好的建议是简单地去与用户和利益相关者交谈，倾听他们在说什么，并 ...

读数据工程之道：设计和构建健壮的数据系统07数据架构的原则

1. 企业架构 1.1. 企业架构有很多子集，包括业务、技术、应用程序和数据 1.2. TOGAF 1.2.1. The Open Group Architecture Framework，是The Open Group的一个标准 1.2.2. 被誉为当今使用最广泛的架构框架 1.2.3. 定义 1 ...

白鲸开源WhaleStudio项目获得“创客北京2024”企业组优秀奖，晋级复赛！

近日，“创客北京2024”海淀区复赛名单正式公布，白鲸开源凭借其全球领先的云原生DataOps平台——WhaleStudio，荣获企业组优秀奖，并成功进入复赛名单。此次“创客北京2024”海淀区级赛由中关村科学城管理委员会主办，北京中关村科学城科创服务有限公司与中国北京（海淀）留学人员创业园（海淀 ...

读数据工程之道：设计和构建健壮的数据系统06底层设计（下）

1. 数据问责制 1.1. 数据问责制意味着分配一个人来管理一部分数据 1.1.1. 负责人协调其他利益相关者的治理活动 1.1.2. 如果没有人对相关数据负责，那么管理数据质量就会很困难 1.1.3. 负责数据的人不一定是数据工程师 1.1.4. 负责人可能由软件工程师、产品经理或其他角色担任 1 ...

大数据资产管理架构设计篇-来自《数据资产管理核心技术与应用》一书的权威讲解

数据资产管理是一项系统而复杂的工程，涉及到元数据、数据血缘、数据质量、数据服务、数据监控、数据安全、数据权限等众多方面，为了更高效的管理好数据资产，因此在很多大型的企业或者组织中，通常会构建一个数据资产管理平台来管理这些各种各样的数据资产，数据资产管理平台通常会包含如下功能：关注清哥聊技术公众号， ...

读数据工程之道：设计和构建健壮的数据系统05底层设计（上）

1. 主要底层设计 1.1. 以前的数据工程周期只关注技术层，而工具和实践的持续抽象和简化已经改变了这一重点 1.2. 数据工程现在包含的不仅仅是工具和技术 1.2.1. 该领域现在正在向价值链上游移动，将数据管理和成本优化等传统企业实践与DataOps等新实践相结合 1.3. 底层设计 1.3.1 ...

深入解析 DolphinScheduler 任务调度、拆分与执行全流程

Apache DolphinScheduler介绍 Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 Dag背景知识摘录了一下Dag的offical定义 A ...

Apache DolphinScheduler-1.3.9源码分析（二）

引言随着大数据的发展，任务调度系统成为了数据处理和管理中至关重要的部分。Apache DolphinScheduler 是一款优秀的开源分布式工作流调度平台，在大数据场景中得到广泛应用。在本文中，我们将对 Apache DolphinScheduler 1.3.9 版本的源码进行深入分析，主要分 ...

流批一体的四块拼图

流批一体是数据领域的热门话题，随着实时数据处理需求的不断涌现和Flink等新兴流计算技术的持续发展，流批一体正从技术愿景向具体的、适配不同行业特点的解决方案过渡。个人认为，流批一体解决方案的重点分为四个方面，数据集成、存储引擎、计算引擎、元数据管理。数据集成传统的批量数据集成方式是每日一次的批 ...

读数据工程之道：设计和构建健壮的数据系统04数据工程生命周期（下）

1. 获取 1.1. 在了解数据源、所用源系统的特征以及数据的存储方式之后，你需要收集数据 1.2. 数据工程生命周期的下一阶段是从源系统中获取数据 1.2.1. 源系统和获取代表了数据工程生命周期中最重要的瓶颈 1.2.2. 源系统通常不在你的直接控制范围内，可能会随机变得无响应或提供质量差的数据 ...

Apache DolphinScheduler社区9月进展记录

各位热爱 Apache DolphinScheduler 的小伙伴们，社区 9 月月报更新啦！这里将记录 Apache DolphinScheduler 社区每月的重要更新，欢迎关注！月度 Merge Star 感谢以下小伙伴上个月为 Apache DolphinScheduler 做的精彩贡献（ ...

Apache SeaTunnel 9月份社区发展记录

各位热爱 SeaTunnel 的小伙伴们，9月份社区月报来啦！这里将定期更新SeaTunnel社区每个月的重大进展，欢迎关注！月度Merge Stars 感谢以下小伙伴上个月为 Apache SeaTunnel 做的精彩贡献（排名不分先后）： @ZhangWeike2000,@wuchunfu,@ ...

读数据工程之道：设计和构建健壮的数据系统03数据工程生命周期（上）

1. 数据工程生命周期 1.1. 数据领域正在经历新数据技术和实践的爆炸式增长，抽象程度和易用性不断提高 1.2. 由于技术抽象程度的增加，数据工程师将越来越多地成为数据生命周期工程师，根据数据生命周期管理的原则来进行思考和操作 1.3. 数据工程生命周期包括将原始数据成分转化为有用的最终产品的阶段 ...

SeaTunnel如何创建Socket数据同步作业？

本文为Apache SeaTunnel Socket Connector的使用文档，旨在帮助用户快速理解和有效利用Socket Connector，助力用户的应用程序实现高效、稳定的网络通信。 Socket是应用层与TCP/IP协议族之间进行通信的中间软件抽象层，它是网络编程的基础，通过Socket ...

读数据工程之道：设计和构建健壮的数据系统02数据工程师

1. 背景和技能 1.1. 数据工程是一个快速发展的领域，关于如何成为一名数据工程师仍然存在很多问题 1.2. 进入数据工程领域的人在教育、职业和技能方面有着不同的背景 1.2.1. 每个进入该领域的人都应该投入大量的时间进行自学 1.3. 从一个邻近的领域转到数据工程是最容易的 1.3.1. 软件 ...

读数据工程之道：设计和构建健壮的数据系统01数据工程概述

1. 数据工程 1.1. 自从公司开始使用数据做事，数据工程就以某种形式存在了 1.1.1. 预测性分析、描述性分析和报告 1.2. 数据工程师获取数据、存储数据，并准备数据供数据科学家、分析师和其他人使用 1.3. 数据工程是系统和流程的开发、实施和维护，这些系统和流程接收原始数据并生成支持下游用 ...