刷新
读数据质量管理:数据可靠性与数据质量问题解决之道12应对与缓解

博主头像 1. 解决 1.1. 当你发现数据出了故障,并且了解到它的初步影响时,下一步(有时甚至在根因分析之前)就是要解决这个问题,并且和利益相关方沟通,协商接下来该怎么做 1.2. 在事故解决后,无论是通过修改代码、数据或者运行环境中的哪种方式,数据团队都应该与受到影响的各方及时沟通,并在接下来的几天安排一 ...

优化 Java Spark 服务忙了整整一周

博主头像 优化 Java Spark 服务忙了整整一周,尝试了各种办法和各种参数组合。 为什么要优化 现网有个spark服务,白天数据量大,积压数据,夜间数据量小,再把积压的数据处理完,虽然达到了平衡,保证了每天的数据能处理完,但白天的数据处理延迟比较大。 数据积压的原因 接手这个服务以来,我一直以为是因为下 ...

2024中国互联网发展创新与投资大赛(开源)总结发布会落幕,Apache DolphinScheduler荣获一等奖

博主头像 近日,由中央网信办信息化发展局指导,中国互联网发展基金会、中国网络空间研究院和中国互联网投资基金联合主办的“2024中国互联网发展创新与投资大赛(开源)”总结发布活动在北京圆满落下帷幕。本届大赛以“开源创新,共建生态”为主题,旨在推动开源生态的高质量发展,选拔优秀开源项目,促进技术创新与人才培养。 ...

获奖喜讯!Apache SeaTunnel荣获2024中国互联网发展创新与投资大赛(开源)二等奖

博主头像 近日,由中央网信办信息化发展局指导,中国互联网发展基金会、中国网络空间研究院和中国互联网投资基金联合主办的“2024中国互联网发展创新与投资大赛(开源)”总结发布活动在北京圆满落下帷幕。本届大赛以“开源创新,共建生态”为主题,旨在推动开源生态的高质量发展,选拔优秀开源项目,促进技术创新与人才培养。 ...

读数据质量管理:数据可靠性与数据质量问题解决之道11根因分析

博主头像 1. 解决大规模数据质量问题 1.1. 为关键的数据管道制定一个事件管理计划 1.2. 使用异常检测作为大规模事件检测方案的一部分 1.3. 在事件发生时,进行全面的根因分析与影响分析 1.4. 通过测试、持续集成/持续部署、数据可观测性与更多的数据来积极主动地应对数据质量问题 1.5. 暂停数据管 ...

Spark习题汇总

博主头像 目录单选多选 单选 网络中很多数据是以图的形式呈现的,比如社交网络、交通事故,现场证据采集等,为了解决大型图的分布式计算问题,最适合采用以下哪种计算框架: Spark Core Storm Pregel (答案) Dremel Hadoop的生态系统组件之一Sqoop的功能是? 负责集群资源调度管理 ...

大数据调度组件之Apache DolphinScheduler

博主头像 Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 主要特性 易于部署,提供四种部署方式,包括Standalone、Cluster、Docker和Kubernetes ...

新兴数据仓库设计与实践手册:从分层架构到实际应用(二)

博主头像 本手册将分为三部分发布,以帮助读者逐步深入理解数据仓库的设计与实践。 第一部分介绍数据仓库的整体架构概述; 第二部分深入讨论ETL在数仓中的应用理论,ODS层的具体实现与应用; 第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开; 通过这样的结构,您可以系统地学习每一层次的内容和设计原则 ...

读数据质量管理:数据可靠性与数据质量问题解决之道09数据可靠性

博主头像 1. 数据可靠性 1.1. 数据可靠性指的是一个组织在整个数据生命周期中提供高数据可用性和健康状况的能力 1.1.1. 是高数据质量带来的结果 1.1.1.1. 高质量的大数据是这个大规模转型平台的核心 1.1.2. 随着公司接收到比以往更多的事务型数据和第三方数据,以及组织中的所有员工在数据生命周 ...

【全面解读】Apache SeaTunnel常见问题全攻略

博主头像 使用SeaTunnel需要安装Spark或者Flink这样的引擎么? 不需要,SeaTunnel 支持 Zeta、Spark 和 Flink 作为同步引擎的选择,您可以选择之一就行,社区尤其推荐使用 Zeta 这种专为同步场景打造的新一代超高性能同步引擎。Zeta 被社区用户亲切的称为 “泽塔奥特曼 ...

DataOps for LLM 的数据工程技术架构实践

博主头像 导读 在 LLM 蓬勃发展的今天,数据工程已成为支持大规模 AI 模型训练的基石。DataOps 作为数据工程的重要方法论,通过优化数据集成、转换和自动化运维,加速数据到模型的闭环流程。本文聚焦新一代数据 & AI 集成工具- Apache SeaTunnel 在 DataOps 中的核心作用,并介 ...

Apache Dolphinscheduler数据质量源码分析

博主头像 Apache DolphinScheduler 是一个分布式、易扩展的可视化数据工作流任务调度系统,广泛应用于数据调度和处理领域。 在大规模数据工程项目中,数据质量的管理至关重要,而 DolphinScheduler 也提供了数据质量检查的计算能力。本文将对 Apache DolphinSchedu ...

读数据质量管理:数据可靠性与数据质量问题解决之道08扩展异常检测

博主头像 1. Python和机器学习扩展异常检测 1.1. 机器学习有助于大规模数据可观测性和数据监控 1.1.1. 配备了机器学习的检测器可以更灵活地应用到更多的数据表上,从而消除了随着数据仓库或数据湖的增长进行手动检查和手动操作的需要 1.1.2. 机器学习检测器可以实时学习和适应数据,并且可以捕获到人 ...

Paimon Deletion Vector

博主头像 deletion vector 是通过一组向量, 维护一个文件中被删除的行, 可以理解为一种索引. 这种方式可以以 Merge On Write 的方式, 来避免 Merge On Read 的过程, 从而以写入性能换取读取性能. 对于写少读多, 或者对读取性能有更高要求的场景会比较适合. 避免 M ...

读数据质量管理:数据可靠性与数据质量问题解决之道07异常检测

博主头像 1. 监控和异常检测 1.1. 在数据方面,所有明面上的测试和数据质量检查都不能完全保护你免受数据宕机的影响 1.1.1. 宕机可能由于各种原因而出现在管道内部和外部的各个阶段 1.1.2. 这些原因通常与数据本身无关 1.2. 要了解数据何时中断,最好的做法是依靠数据监控,特别是异常检测技术 1. ...

读数据质量管理:数据可靠性与数据质量问题解决之道05数据标准化

博主头像 1. 批处理 1.1. 批处理在一段时间内收集数据,然后将大量数据“批处理”在离散的数据包中 1.2. 直到20世纪10年代中期,批处理都是处理分析型数据最常用的方法 1.3. 批处理比流处理要便宜得多,即使是对时间要求最苛刻的处理需求也足以满足 1.4. 批处理是经过时间考验的标准,并且仍然是公司 ...

123···23>