阿里云大数据之——DataWorks学习
什么是DataWorks?
一个大数据开发治理平台,集数据集成,数据开发,数据地图,数据质量,数据服务等于一体,一站式开发管理的界面。
DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、云原生数据仓库 AnalyticDB for PostgreSQL,云原生数据仓库AnalyticDB for MySQL,并且支持用户自定义接入计算和存储服务。
基本概念:
任务(Task)
任务是对数据执行的操作的定义,示例如下:
- 通过数据同步节点任务,将数据从RDS同步至MaxCompute。
- 通过MaxCompute SQL节点任务,运行MaxCompute SQL来进行数据的转换。
任务主要分为节点任务(Node Task)、工作流任务(Flow Task)和内部节点(inner Node)。
任务类型 | 描述 |
节点任务(Node Task) | 一个数据执行的操作。可以与其它节点任务、工作流任务配置依赖关系,组成DAG图。 |
工作流任务(Flow Task) | 满足一个业务场景需求的一组内部节点,组成一个工作流任务,建议工作流任务小于10个。
工作流任务内部节点,无法被其它工作流任务、节点任务依赖。工作流任务可以与其它工作流任务、节点任务配置依赖关系,组成DAG图。
( 从DataWorks V1.0升级的任务,仍保留工作流的概念。DataWorks V2.0及以上版本已无法创建工作流任务,您可以选择创建业务流程进行后续操作。)
|
内部节点(innerNode) | 工作流任务内部的节点,与节点任务的功能基本一致。您可以通过拖拽形成依赖关系,其调度周期会继承工作流任务的调度周期,无法进行单独配置。 |
实例(Instance)
某个任务在某时某刻执行的一个快照。调度系统中的任务,经过调度系统、手动触发运行后,会生成一个实例。实例中会有任务运行时间、运行状态和运行日志等信息。
例如:设置每天2:00运行Task1实例,调度系统会在每天23:30根据周期节点定义好的时间,自动生成一个快照,即Task1第二天2:00运行的实例。到第二天2:00时,如果判断上游实例已经完成,Task1实例便会如期启动运行。(就是在你的task运行之前做一个快照,在一些情况问题后可以去恢复)。
可以在DataWorks的运维中心 > 周期任务运维页面,查询实例。
提交(Submit)
你所开发的任务节点、业务流程,从DataWorks开发环境发布至调度系统就叫提交。相应的代码、调度配置全部合并至调度系统中,调度系统根据相关配置进行调度操作。
脚本开发(Script)
这部分代码无法进行调度参数配置,也无法发布到调度系统中,仅可进行部分数据查询分析的工作。
元数据
元数据是数据的描述数据,可以为数据说明其属性(名称、大小、数据类型等),或结构(字段、类型、长度等),或其相关数据(位于何处、拥有者、产出任务、访问权限等)。DataWorks中元数据主要指库、表相关的信息,元数据管理对应的主要应用是数据地图。
补数据
完成周期任务的开发,将任务提交发布之后,任务会按照调度配置定时运行。如果您希望对历史时间段内的数据进行计算,您可以使用补数据功能。补数据操作生成的补数据实例将按照指定的业务日期运行。
简单流程:
进入DataWorks控制台后:
1.创建工作空间:
基本配置中勾选MaxCompute;
2.采集数据:创建数据源(通过DataWorks采集数据至MaxCompute)
工作空间 > 数据集成 > 左侧导航栏选择数据源 > 数据源管理 > 右上角新增数据源;
3.新建业务流程和数据同步节点:
创建虚拟节点 > 其他节点 (拖拽连接上下游) > 配置节点信息;
4.新建表:
右键单击MaxCompute,选择新建 > 表 > 在新建表的编辑页面完成表结构信息 > 提交到开发环境和生产环境;
5.同步数据:
双击第3步创建好的数据同步节点,进入节点配置界面,输入第2步的数据源和第4步的数据去向;
参数 | 描述 |
任务期望最大并发数 | 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线 程数。向导模式通过界面化配置并发数,指定任务所使用的并行度 |
同步速率 | 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库 造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置 抽取速率 |
错误记录数 | 错误记录数,表示脏数据的最大容忍条数 |
任务资源组 | 任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源 的情况,建议购买独享数据集成资源或添加自定义资源组 |
本文来自博客园,作者:{理想三旬},转载请注明原文链接:{https://www.cnblogs.com/zyp0519/}