阿里云大数据之——DataWorks学习

什么是DataWorks？

　　一个大数据开发治理平台，集数据集成，数据开发，数据地图，数据质量，数据服务等于一体，一站式开发管理的界面。

　　DataWorks支持多种计算和存储引擎服务，包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算（基于Flink）、机器学习PAI、云原生数据仓库 AnalyticDB for PostgreSQL，云原生数据仓库AnalyticDB for MySQL，并且支持用户自定义接入计算和存储服务。

基本概念：

　　任务（Task）

　　　　任务是对数据执行的操作的定义，示例如下：

通过数据同步节点任务，将数据从RDS同步至MaxCompute。
通过MaxCompute SQL节点任务，运行MaxCompute SQL来进行数据的转换。

　　　　任务主要分为节点任务（Node Task）、工作流任务（Flow Task）和内部节点（inner Node）。

任务类型	描述
节点任务（Node Task）	一个数据执行的操作。可以与其它节点任务、工作流任务配置依赖关系，组成DAG图。
工作流任务（Flow Task）	满足一个业务场景需求的一组内部节点，组成一个工作流任务，建议工作流任务小于10个。工作流任务内部节点，无法被其它工作流任务、节点任务依赖。工作流任务可以与其它工作流任务、节点任务配置依赖关系，组成DAG图。（从DataWorks V1.0升级的任务，仍保留工作流的概念。DataWorks V2.0及以上版本已无法创建工作流任务，您可以选择创建业务流程进行后续操作。）
内部节点（innerNode）	工作流任务内部的节点，与节点任务的功能基本一致。您可以通过拖拽形成依赖关系，其调度周期会继承工作流任务的调度周期，无法进行单独配置。

　　实例（Instance）

　　　　某个任务在某时某刻执行的一个快照。调度系统中的任务，经过调度系统、手动触发运行后，会生成一个实例。实例中会有任务运行时间、运行状态和运行日志等信息。

　　　　例如：设置每天2:00运行Task1实例，调度系统会在每天23:30根据周期节点定义好的时间，自动生成一个快照，即Task1第二天2:00运行的实例。到第二天2:00时，如果判断上游实例已经完成，Task1实例便会如期启动运行。（就是在你的task运行之前做一个快照，在一些情况问题后可以去恢复）。

　　　　可以在DataWorks的运维中心 > 周期任务运维页面，查询实例。

　　提交（Submit）

　　　　你所开发的任务节点、业务流程，从DataWorks开发环境发布至调度系统就叫提交。相应的代码、调度配置全部合并至调度系统中，调度系统根据相关配置进行调度操作。

　　脚本开发（Script）

　　　　这部分代码无法进行调度参数配置，也无法发布到调度系统中，仅可进行部分数据查询分析的工作。

　　元数据

　　　　元数据是数据的描述数据，可以为数据说明其属性（名称、大小、数据类型等），或结构（字段、类型、长度等），或其相关数据（位于何处、拥有者、产出任务、访问权限等）。DataWorks中元数据主要指库、表相关的信息，元数据管理对应的主要应用是数据地图。

　　补数据

　　　　完成周期任务的开发，将任务提交发布之后，任务会按照调度配置定时运行。如果您希望对历史时间段内的数据进行计算，您可以使用补数据功能。补数据操作生成的补数据实例将按照指定的业务日期运行。

简单流程：

　　进入DataWorks控制台后：

　　　1.创建工作空间：

　　　　　　基本配置中勾选MaxCompute；

　　　2.采集数据：创建数据源（通过DataWorks采集数据至MaxCompute）

　　　　　　工作空间 > 数据集成 > 左侧导航栏选择数据源 > 数据源管理 > 右上角新增数据源；

　　　3.新建业务流程和数据同步节点：

　　　　　　创建虚拟节点 > 其他节点（拖拽连接上下游） > 配置节点信息；

　　　4.新建表：

　　　　　　右键单击MaxCompute，选择新建 > 表 > 在新建表的编辑页面完成表结构信息 > 提交到开发环境和生产环境；

　　　5.同步数据：

　　　　　　双击第3步创建好的数据同步节点，进入节点配置界面，输入第2步的数据源和第4步的数据去向；　

参数	描述
任务期望最大并发数	数据同步任务内，可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数，指定任务所使用的并行度
同步速率	设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率
错误记录数	错误记录数，表示脏数据的最大容忍条数
任务资源组	任务运行的机器，如果任务数比较多，使用默认资源组出现等待资源的情况，建议购买独享数据集成资源或添加自定义资源组

posted on 2022-03-29 17:53 理想三旬_z 阅读(1111) 评论(0) 收藏举报

刷新页面返回顶部

阿里云大数据之——DataWorks学习

什么是DataWorks？

基本概念：

任务（Task）

实例（Instance）

提交（Submit）

脚本开发（Script）

元数据

补数据

简单流程：

导航

公告

　　任务（Task）

　　实例（Instance）

　　提交（Submit）

　　脚本开发（Script）

　　元数据

　　补数据