2019年2月20日

【转载】Apache Tez 了解

摘要: 你可能听说过Apache Tez,它是一个针对Hadoop数据处理应用程序的新分布式执行框架。但是它到底是什么呢?它的工作原理是什么?哪些人应该使用它,为什么?如果你有这些疑问,那么可以看一下Bikas Saha和Arun Murthy提供的呈现“Apache Tez: 加速Hadoop查 阅读全文

posted @ 2019-02-20 17:32 xueyue77 阅读(250) 评论(0) 推荐(0) 编辑

【转载】MapReduce和Tez对比

摘要:   MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"。 Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成In 阅读全文

posted @ 2019-02-20 17:31 xueyue77 阅读(348) 评论(0) 推荐(0) 编辑

【转载】Azkaban(三)Azkaban的使用

摘要: 界面介绍 首页有四个菜单 projects:最重要的部分,创建一个工程,所有flows将在工程中运行。 scheduling:显示定时任务 executing:显示当前运行的任务 history:显示历史运行任务 介绍projects部分 概念介绍 创建工程:创建之前我们先了解下之间的关系,一个工程 阅读全文

posted @ 2019-02-20 17:23 xueyue77 阅读(128) 评论(0) 推荐(0) 编辑

【转载】Azkaban(二)CentOS7.5安装Azkaban

摘要: 1、软件介绍 Azkaban Web 服务器:azkaban web server 2.5.0.tar.gz Azkaban Excutor 执行服务器:azkaban executor server 2.5.0.tar.gz Azkaban 初始化脚本文件:azkaban sql script 2 阅读全文

posted @ 2019-02-20 17:22 xueyue77 阅读(240) 评论(0) 推荐(0) 编辑

【转载】Azkaban(一)Azkaban的基础介绍

摘要: 一、为什么需要工作流调度器 1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等 2、各任务单元之间存在时间先后及前后依赖关系 3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 例如,我们可能 阅读全文

posted @ 2019-02-20 17:21 xueyue77 阅读(151) 评论(0) 推荐(0) 编辑

【转载】一文总结学习 Python 的 14 张思维导图

摘要: ! flowchart 箭头图标 勿删 本文主要涵盖了 Python 编程的核心知识(暂不包括标准库及第三方库,后续会发布相应专题的文章)。 首先,按顺序依次展示了以下内容的一系列思维导图:基础知识,数据类型(数字,字符串,列表,元组,字典,集合),条件&循环,文件对象,错误&异常 阅读全文

posted @ 2019-02-20 11:49 xueyue77 阅读(209) 评论(0) 推荐(0) 编辑

导航