大数据 - 第3页 - 网站分类

11月 | Apache SeaTunnel月度进展总结

各位热爱 Apache SeaTunnel 的小伙伴们，社区10月份月报更新啦！这里将记录 SeaTunnel 社区每月的重要更新，欢迎关注！月度Merge之星感谢以下小伙伴 11 月份为 Apache SeaTunnel 所做的精彩贡献（排名不分先后）：用户名用户名用户名用户名用户名 ...

Dolphinscheduler DAG核心源码剖析

背景描述注意 : 在 Dolphinscheduler 中，离线任务是有完整的声明周期的，比如说停止、暂停、暂停恢复、重跑等等，都是以DAG(有向无环图的形式进行任务组织)T+1离线任务的。 Dolphinscheduler DAG实现 org.apache.dolphinscheduler.co ...

离线数据同步变迁

本文介绍了从第一代基于Hadoop体系的离线数据同步，到第二代基于DolphinScheduler和StarRocks的改进方案，再到第三代基于Python自定义的离线数据同步的演变过程。每一代方案都在不断优化，以适应日益增长的数据量和复杂的业务需求。 ...

读数据保护：工作负载的可恢复性04备份与档案

1. 区分备份与档案 1.1. 两个完全不同的操作 1.1.1. 要实现的是两个完全不同的目标 1.1.2. 备份(backup) 1.1.3. 档案(archive) 1.2. 有些产品既能制作备份，又能制作档案 1.3. 某些产品或服务明明是专门用来制作备份的，但有人却偏偏想顺便用它来制作档案 ...

向量检索服务关联角色

本文介绍如何为向量检索服务开通服务关联角色，用于授权向量检索服务访问专有网络资源。背景信息向量检索服务关联角色（AliyunServiceRoleForDashVector）是访问控制提供的一种服务关联角色，用于授权向量检索服务访问专有网络资源的权限，使用该权限查询专有网络、安全组和可用区信息， ...

能源投资工程VS智能驾驶，DolphinScheduler如何当好传统行业与前沿科技的桥梁？

在数字化转型的浪潮中，Apache DolphinScheduler以其强大的调度能力，成为连接传统行业与前沿科技的桥梁。2024年12月17日14:00， Apache DolphinScheduler社区将举办一场线上用户交流活动，届时将邀请来自能源投资工程和智能驾驶领域的专家，分享Dolphi ...

【金猿人物展】白鲸开源CEO郭炜：未来数据领域的PK是大模型Transformer vs 大数据Transform

本文由白鲸开源CEO郭炜撰写并投递参与“数据猿年度金猿策划活动——2024大数据产业年度趋势人物榜单及奖项”评选。去年是大模型蓬勃兴起的一年，热度席卷全球，仿佛AI已经可以解决一切问题。今年随着热潮退去，大模型开始进入深水区，试图深入改造各行各业的底层逻辑。而在大数据处理领域，大模型与传统ETL的 ...

读数据质量管理：数据可靠性与数据质量问题解决之道19数据未来

1. 开创可靠数据系统的未来 1.1. 数据作为一个行业很可能正在经历一场巨大且不可逆转的巨变 1.2. 分析型数据正变成现代企业最关键和最具竞争力的核心资产 1.2.1. 不再是公司是否依赖数据的问题 1.2.2. 是使用多少数据以及将数据用于什么场景的问题 1.3. 仅仅收集更多数据还是不够的， ...

读数据质量管理：数据可靠性与数据质量问题解决之道18数据发现

1. 让元数据为业务服务 1.1. 在过去十多年中，数据团队越来越擅长收集大量的数据 1.2. 公司如今正在收集越来越多关于其数据的数据，也就是元数据 1.2.1. dbt等ETL解决方案让跟踪和使用元数据变得容易，而云服务提供商则使栈中数据解决方案之间的元数据的互操作性变得更加无缝 1.2.2. ...

海港企业数据资产消费实践，系统化梳理数据资产、深度释放数据要素潜力

港口企业作为交通运输枢纽，需要借助数字化手段提升管理水平、优化生产流程、提高运营效率，以适应日益增长的业务量和竞争压力。为了指导各地智慧港口的建设工作，交通运输部等多部门联合发布了《智慧港口建设指南》，明确了智慧港口建设的目标、原则、路径及重点任务，为港口的数据化、智能化提供了具体指导。随着物联网、 ...

读数据质量管理：数据可靠性与数据质量问题解决之道17数据网格

1. 要点 1.1. 实现数据质量不能纸上谈兵，而获得“可靠数据”取决于数据分析和工程实践中的其他几个要素 1.2. 数据网格以及数据质量适用的地方 1.3. 数据质量在基于云的数据栈旅程中的作用 1.4. 知识图谱是更易于访问数据的关键 1.5. 分布式数据架构下的数据发现 1.6. 何时开始进行 ...

新兴数据仓库设计与实践手册：从分层架构到实际应用（三）

本手册将分为三部分发布，以帮助读者逐步深入理解数据仓库的设计与实践。第一部分介绍数据仓库的整体架构概述；第二部分深入讨论ETL在数仓中的应用理论，ODS层的具体实现与应用；第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开；通过这样的结构，您可以系统地学习每一层次的内容和设计原则 ...

数据科学与Python（习题汇总）

目录单项选择题不定项选择题判断题单项选择题以下描述中正确的是（）。（传统）商务智能主要关注的是对“过去时间”的“解释性研究” （答案）数据科学的主要处理对象以结构化数据为主数据科学主要关注的是对“未来时间”的“诊断性研究” （传统）商务智能的主要处理对象以非结构化数据为主与传统科学不同 ...

新兴数据仓库设计与实践手册：从分层架构到实际应用（三）

本手册将分为三部分发布，以帮助读者逐步深入理解数据仓库的设计与实践。第一部分介绍数据仓库的整体架构概述；第二部分深入讨论ETL在数仓中的应用理论，ODS层的具体实现与应用；第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开；通过这样的结构，您可以系统地学习每一层次的内容和设计原则 ...

读数据质量管理：数据可靠性与数据质量问题解决之道16数据认证

1. 对数据进行认证 1.1. 数据认证是指在数据资产满足关于数据质量、可观测性、权责分配、问题解决和沟通等公司内共同遵守的SLA后，批准它们被用于整个组织的过程 1.2. 数据认证为人员、框架和技术构建了关键流程，使其与核心业务政策保持一致 1.3. 数据认证的要求会因业务需求、数据工程团队的能力 ...

VTS：基于Apache SeaTunnel的开源向量数据迁移工具

引言 VTS（Vector Transport Service），全称向量传输服务，是一个由Zilliz开发的专注于向量和非结构化数据迁移的开源工具。VTS的核心特点在于其基于Apache SeaTunnel开发，这一事实使其在数据处理和迁移方面具有显著的优势。Apache SeaTunnel作为一 ...

DolphinScheduler JavaTask动态传参秘籍：轻松实现任务间数据流动

Apache DolphinScheduler的JavaTask可以通过在任务执行日志中输出特定格式的参数来支持OUT参数的下游传输，通过捕捉日志并将其作为参数传递给下游任务。这种机制允许任务间的数据流动和通信，增强了工作流的灵活性和动态性。那具体要怎么做呢？本文将进行详细的讲解。 0 修改一行源 ...

Kafka集群管理：大数据运维专家来教你如何实现数据均衡与性能最大化

Kafka 概述 Kafka 起初是由 LinkedIn 公司采用 Scala 语言开发的一个多分区、多副本且基于 ZooKeeper 协调的分布式消息系统，现已被捐献给 Apache 基金会。目前 Kafka 已经定位为一个分布式流式处理平台，它以高吞吐、可持久化、可水平扩展、支持流数据处理等 ...

占用磁盘100%？Apache DolphinScheduler 日志如何定时清理！

当 Apache DolphinScheduler 运行几个月后，大部分朋友会发现 Logs 下的运行日志越来越多，这时可以考虑清理下 Logs/ 目录下的日志文件，比如设置只保留最近 3 天的日志，怎么操作呢？可以通过执行以下三个命令来实现： find ./logs -type f -mtime ...

读数据质量管理：数据可靠性与数据质量问题解决之道15数据信任

1. 在数据平台中建立信任 1.1. 确保产品目标与业务目标保持一致 1.1.1. 几十年来，数据平台被视为实现目标的手段，而不是“终极目标” 1.1.1.1. 数据不被当作核心产品来构建 1.2. 寻求适合的利益相关方的反馈与认可 1.2.1. 在整个产品开发过程中获得前期认可并得到迭代反馈是构 ...