摘要:
一、概念 1.什么是DataHub DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能 在订阅-发布功能中,订阅者订阅自己感兴趣的数据,发布者发布到中间channel,发布-订阅彼此不知道对方的存在 可以轻 阅读全文
摘要:
直接介绍重点: 常用的操作是导航栏的逐句与断点: 添加断点:调试->切换断点 单步运行:调试->逐句 查看变量的窗口:视图->本地窗口 阅读全文
摘要:
一、数据开发 1.任务开发 新建表 野路子可以直接新建一个任务,粘贴DDL,手动运行任务即可完成建表 正常应当是在“数据管理”->数据表管理中建表: 支持可视化建表和DDL建表(配合之前的宏,建表还是很快的) 当然,这种方式的局限也很明显,一是稍显繁琐,二是不能同时运行多个任务,三是不能保存建表脚本 阅读全文
摘要:
一、概述 DataWorks数据工场,是MaxComputer的可视化开发平台,一站式开发、管理界面 1.功能概述 1.强大调度:支持分钟到月的调度 2.多种任务:支持ODPS、SHELL等多种任务 3.可视化开发:B/S架构的可视化开发界面,简单易上手 2.基本概念 1.任务 0个或多个表作为输入 阅读全文
摘要:
1.分段调试 面对长的SQL,出错时一般直接看定位的行号,有时候不出错但是没数据时,应该尝试分段调试,很长的SQL嵌套很多的子查询时,一个一个子查询进行分别调试,看哪一步子查询出了问题,层层推进 2.日志查看 通常情况下,日志都是很重要的指示。有时候一些莫名其妙的错误时,错误信息看得懂却始终调不通时 阅读全文
摘要:
一、概述 1.是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效 阅读全文
摘要:
一、概述 数据管理主要分为:元数据管理、计算管理、存储和成本管理、数据质量管理 二、元数据 元数据主要分为两大类:技术元数据和业务元数据 技术元数据: 存储数据仓库技术细节的数据,包括: 存储元数据:表名、字段名、分区信息等 运行元数据:作业类型、SQL、运行参数等 开发元数据:数据同步、计算任务、 阅读全文
摘要:
一、概述 1.什么是数据模型? 数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2.典型数据仓库建模方法论 ER模型 纬度模型(建模四步曲:确定业务流程->确定粒度->确定纬度->确定事实表) 二、阿里巴巴数据整合管理体系oneData 1.体系架构 核心内容 阅读全文
摘要:
一、概述 暂略 二、ODPS插件 https://yq.aliyun.com/articles/68911 三、使用Hive 参考:http://cloud.itheima.com/areanew/schoolzixun/cloud/20190801/192216.html 主要步骤:(请先在本机配 阅读全文
摘要:
一、MySQL 在数据同步中用的比较多的是MySQL的binlog 1.bin-log简介 它记录了所有的DDL和DML(除了数据查询语句,select与show不记录)语句,以事件形式记录,还包含语句所执行的消耗的时间 2.开启bin-log //重启生效 更多详细介绍,参考:https://ww 阅读全文