刷新
11月 | Apache SeaTunnel月度进展总结

博主头像 各位热爱 Apache SeaTunnel 的小伙伴们,社区10月份月报更新啦!这里将记录 SeaTunnel 社区每月的重要更新,欢迎关注! 月度Merge之星 感谢以下小伙伴 11 月份为 Apache SeaTunnel 所做的精彩贡献(排名不分先后): 用户名 用户名 用户名 用户名 用户名 ...

Dolphinscheduler DAG核心源码剖析

博主头像 背景描述 注意 : 在 Dolphinscheduler 中,离线任务是有完整的声明周期的,比如说停止、暂停、暂停恢复、重跑等等,都是以DAG(有向无环图的形式进行任务组织)T+1离线任务的。 Dolphinscheduler DAG实现 org.apache.dolphinscheduler.co ...

离线数据同步变迁

博主头像 本文介绍了从第一代基于Hadoop体系的离线数据同步,到第二代基于DolphinScheduler和StarRocks的改进方案,再到第三代基于Python自定义的离线数据同步的演变过程。每一代方案都在不断优化,以适应日益增长的数据量和复杂的业务需求。 ...

读数据保护:工作负载的可恢复性04备份与档案

博主头像 1. 区分备份与档案 1.1. 两个完全不同的操作 1.1.1. 要实现的是两个完全不同的目标 1.1.2. 备份(backup) 1.1.3. 档案(archive) 1.2. 有些产品既能制作备份,又能制作档案 1.3. 某些产品或服务明明是专门用来制作备份的,但有人却偏偏想顺便用它来制作档案 ...

向量检索服务关联角色

博主头像 本文介绍如何为向量检索服务开通服务关联角色,用于授权向量检索服务访问专有网络资源。 背景信息 向量检索服务关联角色(AliyunServiceRoleForDashVector)是访问控制提供的一种服务关联角色,用于授权向量检索服务访问专有网络资源的权限,使用该权限查询专有网络、安全组和可用区信息, ...

【金猿人物展】白鲸开源CEO郭炜:未来数据领域的PK是大模型Transformer vs 大数据Transform

博主头像 本文由白鲸开源CEO郭炜撰写并投递参与“数据猿年度金猿策划活动——2024大数据产业年度趋势人物榜单及奖项”评选。 去年是大模型蓬勃兴起的一年,热度席卷全球,仿佛AI已经可以解决一切问题。今年随着热潮退去,大模型开始进入深水区,试图深入改造各行各业的底层逻辑。而在大数据处理领域,大模型与传统ETL的 ...

读数据质量管理:数据可靠性与数据质量问题解决之道19数据未来

博主头像 1. 开创可靠数据系统的未来 1.1. 数据作为一个行业很可能正在经历一场巨大且不可逆转的巨变 1.2. 分析型数据正变成现代企业最关键和最具竞争力的核心资产 1.2.1. 不再是公司是否依赖数据的问题 1.2.2. 是使用多少数据以及将数据用于什么场景的问题 1.3. 仅仅收集更多数据还是不够的, ...

读数据质量管理:数据可靠性与数据质量问题解决之道18数据发现

博主头像 1. 让元数据为业务服务 1.1. 在过去十多年中,数据团队越来越擅长收集大量的数据 1.2. 公司如今正在收集越来越多关于其数据的数据,也就是元数据 1.2.1. dbt等ETL解决方案让跟踪和使用元数据变得容易,而云服务提供商则使栈中数据解决方案之间的元数据的互操作性变得更加无缝 1.2.2.  ...

海港企业数据资产消费实践,系统化梳理数据资产、深度释放数据要素潜力

博主头像 港口企业作为交通运输枢纽,需要借助数字化手段提升管理水平、优化生产流程、提高运营效率,以适应日益增长的业务量和竞争压力。为了指导各地智慧港口的建设工作,交通运输部等多部门联合发布了《智慧港口建设指南》,明确了智慧港口建设的目标、原则、路径及重点任务,为港口的数据化、智能化提供了具体指导。随着物联网、 ...

读数据质量管理:数据可靠性与数据质量问题解决之道17数据网格

博主头像 1. 要点 1.1. 实现数据质量不能纸上谈兵,而获得“可靠数据”取决于数据分析和工程实践中的其他几个要素 1.2. 数据网格以及数据质量适用的地方 1.3. 数据质量在基于云的数据栈旅程中的作用 1.4. 知识图谱是更易于访问数据的关键 1.5. 分布式数据架构下的数据发现 1.6. 何时开始进行 ...

新兴数据仓库设计与实践手册:从分层架构到实际应用(三)

博主头像 本手册将分为三部分发布,以帮助读者逐步深入理解数据仓库的设计与实践。 第一部分介绍数据仓库的整体架构概述; 第二部分深入讨论ETL在数仓中的应用理论,ODS层的具体实现与应用; 第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开; 通过这样的结构,您可以系统地学习每一层次的内容和设计原则 ...

数据科学与Python(习题汇总)

博主头像 目录单项选择题不定项选择题判断题 单项选择题 以下描述中正确的是( )。 (传统)商务智能主要关注的是对“过去时间”的“解释性研究” (答案) 数据科学的主要处理对象以结构化数据为主 数据科学主要关注的是对“未来时间”的“诊断性研究” (传统)商务智能的主要处理对象以非结构化数据为主 与传统科学不同 ...

新兴数据仓库设计与实践手册:从分层架构到实际应用(三)

博主头像 本手册将分为三部分发布,以帮助读者逐步深入理解数据仓库的设计与实践。 第一部分介绍数据仓库的整体架构概述; 第二部分深入讨论ETL在数仓中的应用理论,ODS层的具体实现与应用; 第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开; 通过这样的结构,您可以系统地学习每一层次的内容和设计原则 ...

读数据质量管理:数据可靠性与数据质量问题解决之道16数据认证

博主头像 1. 对数据进行认证 1.1. 数据认证是指在数据资产满足关于数据质量、可观测性、权责分配、问题解决和沟通等公司内共同遵守的SLA后,批准它们被用于整个组织的过程 1.2. 数据认证为人员、框架和技术构建了关键流程,使其与核心业务政策保持一致 1.3. 数据认证的要求会因业务需求、数据工程团队的能力 ...

<1234···22>