![]()
DataWorks-简介
1、介绍
DataWorks 是阿里云推出的一款一站式大数据开发与治理平台,旨在帮助企业高效地进行数据集成、数据开发、数据治理和数据服务化。它提供了从数据采集、清洗、加工到数据分析的全流程支持,同时具备强大的数据管理和运维能力。
2、DataWorks-核心功能
1. 数据集成
多源数据接入: 支持从多种数据源(如 MySQL、Oracle、SQL Server、Kafka、HDFS 等)进行数据采集。
实时与离线同步: 提供实时数据同步(如 Kafka、DataHub)和离线数据同步(如 DataX)能力。
数据清洗与转换: 在数据集成过程中支持数据清洗、格式转换和字段映射。
2. 数据开发
可视化开发: 提供拖拽式的可视化开发界面,支持 SQL、Shell、Python 等多种脚本语言。
任务调度: 支持复杂的任务依赖关系和调度策略,确保任务按计划执行。
数据同步任务: 支持周期性或触发式的数据同步任务。
数据加工: 提供丰富的数据处理节点,支持数据过滤、聚合、关联等操作。
3. 数据治理
数据质量管理: 提供数据质量监控规则,支持对数据完整性、准确性、一致性等进行校验。
元数据管理: 支持数据资产的元数据管理,方便用户了解数据的来源、用途和变更历史。
数据安全: 提供数据权限管理、数据脱敏、数据加密等安全功能。
数据血缘: 支持数据血缘分析,追踪数据的来源和流向。
4. 数据服务化
API 发布: 支持将数据加工结果以 API 的形式发布,供其他系统调用。
数据共享: 支持跨项目、跨部门的数据共享,提升数据利用率。
数据可视化: 支持将数据结果通过报表、仪表盘等形式展示。
5. 运维监控
任务监控: 实时监控任务的运行状态、资源消耗和运行日志。
告警管理: 支持通过邮件、短信、钉钉等方式发送任务异常告警。
性能优化: 提供任务运行性能分析工具,帮助用户优化任务执行效率。
3、DataWorks-核心组件
1. 数据集成(Data Integration)
提供高效的数据同步工具,支持批量数据和实时数据的同步。
典型工具:DataX(离线数据同步)、实时同步(如 Kafka、DataHub)。
2. 数据开发(DataStudio)
提供可视化的数据开发环境,支持 SQL、Shell、Python 等脚本开发。
支持任务调度、依赖管理和版本控制。
3. 数据治理(Data Governance)
提供数据质量监控、元数据管理、数据血缘分析等功能。
支持数据资产的分类、标签化和权限管理。
4. 数据服务(DataService)
支持将数据加工结果以 API 的形式发布,供其他系统调用。
提供 API 的管理、监控和权限控制。
5. 运维中心(Operation Center)
提供任务运行监控、日志查看、告警管理等功能。
支持任务性能分析和优化建议。
4、DataWorks-优势
1、一站式解决方案: 从数据集成、开发到治理和服务化,提供全流程支持。
2、可视化开发: 降低开发门槛,提升开发效率。
3、强大的调度能力: 支持复杂的任务依赖关系和调度策略。
4、完善的数据治理: 提供数据质量、元数据、数据安全等治理能力。
5、灵活的扩展性: 支持与阿里云其他产品(如 MaxCompute、EMR、RDS 等)无缝集成。
6、高可靠性和稳定性: 基于阿里云的基础设施,确保数据任务的高可用性和稳定性。
DataWorks-案例实操
![alt text]()
DataWorks-案例;人力资源表添加对应落库信息函数
1、dataworks 对应参数设置
![alt text]()
2、dataworks 【调度参数预览】 按钮 显示数据
![alt text]()
3、调度节点,sql 测试
![alt text]()
![alt text]()
select CONCAT('2024-04-13', ' ','00:13:00');
select CONCAT('${day}', ' ','${dt}');
4、离线调度对应处理 添加一个落库的时间字段
![alt text]()
![alt text]()
5、落库字段添加,sql语句
select * from wanma.hr_user_statistical hus
alter table wanma.hr_user_statistical add column dcTime datetime NULL COMMENT "数据转换时间" after is_entry_leave
DataWorks-案例:DataWorks 对接钉钉告警 开启
1、准备工作
1、确保拥有钉钉群并添加机器人:
在钉钉中创建一个群聊(如果已有群聊可跳过此步骤)。
在群聊中添加一个自定义机器人:
进入群聊设置 -> 智能群助手 -> 添加机器人 -> 自定义机器人。
设置机器人名称,并记录生成的 Webhook 地址(后续需要在 DataWorks 中配置)。
2、确保拥有阿里云 DataWorks 权限:
登录阿里云 DataWorks 控制台,确保您有权限创建和配置告警规则。
2、在 DataWorks 中配置钉钉告警
1、登录 DataWorks 控制台:
进入 阿里云 DataWorks 控制台。
2、进入运维中心:
在左侧导航栏中选择 运维中心 -> 周期任务 或 实时任务(根据您的任务类型选择)。
3、选择需要配置告警的任务:
找到您需要配置告警的任务,点击任务名称进入任务详情页。
4、配置告警规则:
在任务详情页中,找到 告警配置 或 监控告警 选项。
点击 添加告警规则。
5、设置告警条件:
选择需要监控的指标,例如:
任务运行状态(成功、失败、超时等)。
任务运行时长。
数据产出延迟等。
设置告警触发条件,例如:
任务失败时触发告警。
任务运行时长超过设定阈值时触发告警。
6、配置钉钉告警通知:
在告警通知方式中,选择 钉钉机器人。
填写钉钉机器人的 Webhook 地址。
设置告警通知内容模板,例如:
任务名称、任务ID、告警时间、告警原因等。
7、测试告警:
保存告警规则后,可以手动触发任务失败或模拟异常情况,测试钉钉告警是否正常接收。
3、钉钉告警消息示例
【DataWorks 告警通知】
任务名称:example_task
任务ID:123456
告警时间:2024-5-01 12:00:00
告警原因:任务运行失败
详情链接:https://workbench.data.aliyun.com/...
4、高级配置(可选)
自定义告警内容:
在钉钉机器人设置中,可以自定义告警消息的格式和内容,例如添加更多任务信息或业务上下文。
多任务批量配置告警:
如果需要为多个任务配置相同的告警规则,可以使用 DataWorks 的 批量操作 功能。
与其他告警方式结合:
除了钉钉告警,DataWorks 还支持邮件、短信、Webhook 等多种告警方式,可以根据需求组合使用。
阿里云-三通两平台
1、三通:数据通、业务通、组织通
1-1、数据通
定义: 实现企业内外部数据的全面贯通,打破数据孤岛,构建统一的数据资产。
核心能力:
数据集成: 支持多源异构数据的采集、清洗和整合。
数据治理: 提供数据质量管理、元数据管理、数据安全等功能。
数据分析: 通过大数据分析和 AI 技术,挖掘数据价值,支持业务决策。
典型应用场景:
企业数据中台建设。
跨部门、跨系统的数据共享与协同。
实时数据分析和可视化。
1-2、业务通
定义: 实现企业业务流程的全面贯通,优化业务效率,提升用户体验。
核心能力:
业务流程自动化: 通过低代码/无代码平台,快速构建和优化业务流程。
业务中台: 提供统一的业务能力中心,支持快速创新和迭代。
生态协同: 支持企业与上下游合作伙伴的业务协同。
典型应用场景:
供应链协同管理。
客户关系管理(CRM)优化。
智能营销和精准服务。
1-3、组织通
定义: 实现企业内部组织的全面贯通,提升组织协同效率,赋能员工。
核心能力:
协同办公: 提供钉钉等协同工具,支持远程办公和团队协作。
组织数字化: 通过数字化手段优化组织架构和人力资源管理。
知识管理: 构建企业知识库,促进知识共享和创新。
典型应用场景:
企业数字化转型中的组织变革。
跨部门、跨地域的协同办公。
员工赋能和绩效管理。
2、两平台:技术平台、生态平台
2-1、技术平台
定义: 提供强大的技术基础设施和工具,支持企业数字化转型。
核心能力:
云计算基础设施: 包括计算、存储、网络等基础资源。
大数据与 AI 平台: 提供数据采集、存储、计算、分析和 AI 模型训练能力。
物联网(IoT)平台: 支持设备连接、数据采集和智能分析。
开发与运维平台: 提供 DevOps 工具链,支持敏捷开发和持续交付。
典型产品:
阿里云 ECS(弹性计算服务)。
阿里云 MaxCompute(大数据计算服务)。
阿里云 PAI(机器学习平台)。
阿里云 IoT 平台。
2-2、生态平台
定义: 构建开放的生态系统,连接企业、合作伙伴和开发者,共同推动数字化转型。
核心能力:
开放 API: 提供丰富的 API 接口,支持第三方应用集成。
开发者社区: 提供技术文档、培训和支持,赋能开发者。
合作伙伴计划: 与行业领先企业合作,提供联合解决方案。
典型应用场景:
行业解决方案的联合开发和推广。
开发者生态的构建和运营。
企业间的资源共享和协同创新。
3、平台价值
1、提升企业效率: 通过数据、业务和组织的全面贯通,优化资源配置,提升运营效率。
2、加速创新: 借助强大的技术平台和开放的生态平台,快速响应市场变化,推动业务创新。
3、增强竞争力: 通过数字化转型,提升企业的核心竞争力,实现可持续发展。