摘要: 数据仓库(DW):是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策。在数据库已经大量存在的情况下,它是一整套包括了ETL、调度、建模在内的完整的理论 阅读全文
posted @ 2022-08-21 21:33 小王同学学编程 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 1.综述 SQL任务类型,用于连接数据库并执行相应SQL 2.创建数据源 3.创建任务 点击项目管理-项目名称-工作流定义,点击“创建工作流”按钮,进入DAG编辑页面。 工作栏拖动SQL到画板中,选择需要连接的数据源,即可完成创建。 4.任务参数 数据源:选择对应的数据源。 sql类型:支持查询和非 阅读全文
posted @ 2022-08-21 17:57 小王同学学编程 阅读(1233) 评论(0) 推荐(0) 编辑
摘要: 一、项目管理 1.创建项目 2.项目首页 任务状态统计:在指定时间范围内,统计任务实例中状态为提交成功、正在运行、准备暂停、暂停、准备停止、停止、失败、成功、需要容错、kill、等待线程的个数 流程状态统计:在指定时间范围内,统计工作流实例中状态为提交成功、正在运行、准备暂停、暂停、准备停止、停止、 阅读全文
posted @ 2022-08-21 16:07 小王同学学编程 阅读(402) 评论(0) 推荐(0) 编辑
摘要: Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式方式 阅读全文
posted @ 2022-08-21 11:39 小王同学学编程 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 在一个Greenplum数据库管理系统中,所有主机上的数据库实例(Master和所有的Segment)一起被启动或者停止,启停操作统一由Master实例发起,它们步调一致,在外界看来是一个完整的数据库管理系统。 分别使用gpstart 和 gpstop 工具来启动和停止Greenplum数据库。这些 阅读全文
posted @ 2022-08-21 09:28 小王同学学编程 阅读(1516) 评论(0) 推荐(0) 编辑
摘要: Greenplum数据库使用了PostgreSQL的多版本并发控制(MVCC)模型来管理对于堆表的并发事务。 铜锅MVCC,每一个查询都在它开始时的一个数据库快照上操作。在执行时,一个查询不能看到其他并发事务所作出的更改。这确保了一个查询看到的是数据库的一个一致的视图。 事务ID MVCC模型使用事 阅读全文
posted @ 2022-08-21 09:12 小王同学学编程 阅读(127) 评论(0) 推荐(0) 编辑
摘要: Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。 MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。Greenplum使 阅读全文
posted @ 2022-08-21 08:38 小王同学学编程 阅读(170) 评论(0) 推荐(0) 编辑
levels of contents