DataWorks使用小结(一)——概述
一、概述
DataWorks数据工场,是MaxComputer的可视化开发平台,一站式开发、管理界面
1.功能概述
1.强大调度:支持分钟到月的调度
2.多种任务:支持ODPS、SHELL等多种任务
3.可视化开发:B/S架构的可视化开发界面,简单易上手
2.基本概念
1.任务
0个或多个表作为输入,1个或多个表作为输出。主要分为节点任务、工作流任务、内部节点
2.实例
某个任务某个时刻的运行快照
3.提交
提交的任务会到调度系统(不提交的不能加入调度系统)
4.资源和函数
俗称的JAR、UDF
以上都可在DataWorks中找到:
// 因版本差异可能不同,此处是在左上
二、基本开发流程
主要包括:建表上传数据->创建工作流->创建同步任务->创建周期和依赖->运维日志排错
1.建表上传数据
在任务开发中新建一个节点任务,写入DDL建表语句,运行即可完成建表,通过找表即可找到新建的表:
// 各个版本DataWorks可能稍有不同
数据同步任务,将在下节详述
2.创建工作流
创建任务时选择工作流任务即可创建工作流:
一般而言会创建一个虚节点用于做控制节点,虚节点对运行数据不产生任何影响,仅用于对下游节点的控制,一般而言,虚节点作为根节点控制整个工作流。
3.创建同步任务
注意RDS等数据源需要添加白名单等(ECS添加安全组)
首先需要项目管理员新建数据源:
新版DataWorks是在数据集成中新建,老板的在项目管理中:
新建的数据同步在新版中是数据集成的左上角,老板的需要在新建任务时选择任务类型:
// 底层核心应该是DataX
简单起见,可以用向导模式,可视化同步数据
4.配置周期和依赖
双击打开任务后,在页面右侧点击任务属性即可配置(新版略有不同):
即可配置周期调度以及依赖属性了,当有依赖任务时必须等待上游任务跑完才能执行(即使本身已到运行时间)
5.运维日志管理
可以通过运维中心查看任务,右击即可管理查看