随笔分类 -  Oozie

摘要:oozie支持使用EL(expression language)表达式。 基本的EL常量 KB MB GB TB PB 基本EL函数 string firstNotNull(String value1,String value2) 返回第一个不为空的值,如果都为null,则返回null string 阅读全文
posted @ 2017-03-07 21:46 xingoo 阅读(2090) 评论(0) 推荐(0) 编辑
摘要:Oozie支持Java Action,因此可以自定义很多的功能。本篇就从理论和实践两方面介绍下Java Action的妙用,另外还涉及到oozie中action之间的参数传递。 本文大致分为以下几个部分: Java Action教程文档 自定义Java Action实践 从源码的角度讲解Java A 阅读全文
posted @ 2017-03-04 15:13 xingoo 阅读(4282) 评论(0) 推荐(1) 编辑
摘要:前篇讲述了下什么是流控制节点,本篇继续来说一下什么是 Action Nodes操作节点。Action节点有一些比较通用的特性: Action节点是远程的 所有oozie创建的计算和处理任务都是异步的,没有任何应用是工作在oozie内部的。基本上都是创建一个oozie任务,oozie任务会以map的形 阅读全文
posted @ 2017-03-02 22:09 xingoo 阅读(2583) 评论(0) 推荐(0) 编辑
摘要:最近又开始捅咕上oozie了,所以回头还是翻译一下oozie的文档。文档里面最重要就属这一章了——工作流定义。 一提到工作流,首先想到的应该是工作流都支持哪些工作依赖关系,比如串式的执行,或者一对多,或者多对一,或者条件判断等等。Oozie在这方面支持的很好,它把节点分为控制节点和操作节点两种类型, 阅读全文
posted @ 2017-03-01 22:33 xingoo 阅读(5170) 评论(0) 推荐(1) 编辑
摘要:利用大数据来做BI分析的时候,必不可少需要设置一些调度任务。 本篇就讲述一下如何利用hue来编辑shell操作,这里面的很多操作在其他的调度操作里面也是可以借鉴的。 如果是linux里面可以直接执行的脚本,那么可以直接在hue里面使用,比如: 如果有参数,可以点击 添加 如果你使用了${value} 阅读全文
posted @ 2017-02-28 22:33 xingoo 阅读(2954) 评论(0) 推荐(0) 编辑
摘要:Spark是现在应用最广泛的分布式计算框架,oozie支持在它的调度中执行spark。在我的日常工作中,一部分工作就是基于oozie维护好每天的spark离线任务,合理的设计工作流并分配适合的参数对于spark的稳定运行十分重要。 Spark Action 这个Action允许执行spark任务,需 阅读全文
posted @ 2016-12-23 23:45 xingoo 阅读(10514) 评论(2) 推荐(0) 编辑
摘要:工作中发现在oozie中使用sqoop与在shell中直接调度sqoop性能上有很大的差异。为了更深入的探索其中的缘由,开始了oozie的源码分析之路。今天第一天阅读源码,由于没有编译成功,不能运行测试用例,直接使用sublime肉眼阅读,还是挺费劲的。 虽然流程还不是顺畅,但是大体上的内容还算是了 阅读全文
posted @ 2016-12-11 00:14 xingoo 阅读(3414) 评论(1) 推荐(1) 编辑
摘要:Sqoop的使用应该是Oozie里面最常用的了,因为很多BI数据分析都是基于业务数据库来做的,因此需要把mysql或者oracle的数据导入到hdfs中再利用mapreduce或者spark进行ETL,生成报表信息。 因此本篇的Sqoop Action其实就是运行一个sqoop的任务而已。 同样ac 阅读全文
posted @ 2016-11-22 21:46 xingoo 阅读(3883) 评论(0) 推荐(1) 编辑
摘要:Oozie在执行sqoop的时候报错,同样的SQL在sqoop中可用,在oozie中不可用: 原因,在使用left join的时候使用了别名。而split by字段,没有指定别名。 至于为什么在sqoop中好使,这个有时间看看源码吧。 另外,Oozie在使用时间字段进行split by的时候也会报错 阅读全文
posted @ 2016-11-21 22:55 xingoo 阅读(1273) 评论(0) 推荐(0) 编辑
摘要:继前一篇大体上翻译了Email的Action配置,本篇继续看一下Shell的相关配置。 Shell Action Shell Action可以执行Shell脚本命令,工作流会等到shell完全执行完毕后退出,再执行下一个节点。为了运行shell,必须配置 以及 ,并且设置 来执行shell. She 阅读全文
posted @ 2016-11-19 00:20 xingoo 阅读(4776) 评论(1) 推荐(0) 编辑
摘要:在大数据的当下,各种spark和hadoop的框架层出不穷。各种高端的计算框架,分布式任务如乱花般迷眼。你是否有这种困惑!——有了许多的分布式任务,但是每天需要固定时间跑任务,自己写个调度,既不稳定,又没有可靠的通知。 想要了解 "Oozie的基础知识,可以参考这里" 那么你应该是在找——Oozie 阅读全文
posted @ 2016-11-17 21:53 xingoo 阅读(4306) 评论(0) 推荐(0) 编辑
摘要:设想一下,当你的系统引入了spark或者hadoop以后,基于Spark和Hadoop已经做了一些任务,比如一连串的Map Reduce任务,但是他们之间彼此右前后依赖的顺序,因此你必须要等一个任务执行成功后,再手动执行第二个任务。是不是很烦! 这个时候Oozie(驯象人,典故来自评论一楼)就派上用 阅读全文
posted @ 2016-09-22 22:41 xingoo 阅读(19108) 评论(3) 推荐(1) 编辑

点击右上角即可分享
微信分享提示