QueryMarsBo

2018年7月16日

摘要： 1.Command类型多job工作流flow 1.创建有依赖关系的多个job描述：第一个job：foo.job 2.第二个job：bar.job 依赖 foo.job 3.将所有job资源文件打到一个zip包中： 4.在azkaban的web管理界面创建工程并上传zip包，然后启动工作流flow 相阅读全文

posted @ 2018-07-16 17:17 QueryMarsBo 阅读(983) 评论(0) 推荐(0) 编辑

08_Azkaban案例实践1_Command单一job示例

摘要： 1.Azkaban实战 Azkaba内置的任务类型支持command、java 2.Command类型单一job示例 1、创建job描述文件：vi command.job 2、将job资源文件打包成zip文件:zip command.job 3. 通过azkaban的web管理平台创建project 阅读全文

posted @ 2018-07-16 16:26 QueryMarsBo 阅读(301) 评论(0) 推荐(0) 编辑

07_Azkaban工作流调度器简介及其安装

摘要： Azkaban介绍 Azkaban是一个Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。 Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点： Web用户界面阅读全文

posted @ 2018-07-16 16:23 QueryMarsBo 阅读(343) 评论(0) 推荐(0) 编辑

06_工作流调度器概述

摘要： 1.为什么需要工作流调度系统: 一个完整的数据分析系统通常由大量任务单元组成：shell脚本，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有这样一个需求，某个业务阅读全文

posted @ 2018-07-16 13:34 QueryMarsBo 阅读(157) 评论(0) 推荐(0) 编辑

05_ Flume多级Agent之间串联案例

摘要：多级agent之间串联：从tail命令获取数据发送到avro端口，另一个节点可配置一个avro源来获取数据，发送外部存储启动两个Agent节点：使用scp命令拷贝flume安装包到另一台虚拟机;scp -r /usr/local/src/flume/ shizhan3:$PWD 1.在shiz 阅读全文

posted @ 2018-07-16 13:08 QueryMarsBo 阅读(761) 评论(0) 推荐(0) 编辑

04_ Flume采集文件到HDFS案例

摘要：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs 根据需求，首先定义以下3大要素采集源，即source——监控文件内容更新 : exec ‘tail -F file’ 下沉目标，即sink——HDFS文件系统 : hdfs sink 阅读全文

posted @ 2018-07-16 10:20 QueryMarsBo 阅读(495) 评论(0) 推荐(0) 编辑

2018年7月13日

03_ Flume采集(监听)目录到HDFS案例

摘要：采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素 l.采集数据源，即source——监控文件目录 : spooldir 2.下沉目标，即sink——HDFS文件系统 : hdfs sink 3.source和sin 阅读全文

posted @ 2018-07-13 16:29 QueryMarsBo 阅读(223) 评论(0) 推荐(0) 编辑

13_Hive优化

摘要： Hive优化要点：优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使有阅读全文

posted @ 2018-07-13 16:04 QueryMarsBo 阅读(200) 评论(0) 推荐(0) 编辑

02_ Flume的安装部署及其简单使用

摘要：一.Flume的安装部署: Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境安装包的下载地址为：http://www-us.apache.org/dist/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz 1. 上传安装包到数据源所在节点阅读全文

posted @ 2018-07-13 15:25 QueryMarsBo 阅读(268) 评论(0) 推荐(0) 编辑

01_日志采集框架Flume简介及其运行机制

摘要：离线辅助系统概览： 1.概述：在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示： 1.1 Flume介绍： Flume是一阅读全文

posted @ 2018-07-13 14:20 QueryMarsBo 阅读(524) 评论(0) 推荐(0) 编辑

公告