摘要:
遇到的问题 因为要把spark从es读出来的json数据转换为对象,开始想用case class定义类型,通过fastjson做转换。如下 结果抛出了异常:com.fasterxml.jackson.databind.JsonMappingException: No suitable constru 阅读全文
摘要:
假设workflow里有两个action节点,shell和hive,hive需要用到shell节点里的值,shell脚本如下 hive节点需传入day这个参数。需要用到shell节点里<capture-output/>这个属性,如下 <action name="shell-118a "> <shel 阅读全文
摘要:
1、DataFrame简介: 在Spark中,DataFrame是一种以RDD为基础的分布式数据据集,类似于传统数据库听二维表格,DataFrame带有Schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。 类似这样的 2、准备测试结构化数据集 people.json 阅读全文
摘要:
依赖冲突:NoSuchMethodError,ClassNotFoundException 当用户应用于Spark本身依赖同一个库时可能会发生依赖冲突,导致程序奔溃。依赖冲突表现为在运行中出现NoSuchMethodError或者ClassNotFoundException的异常或者其他与类加载相关 阅读全文
摘要:
本文原文出处: http://blog.csdn.net/bluishglc/article/details/46049817 Oozie工作流属性配置的三种方式 Oozie有三种方法可以给工作流提供属性属性配置: Oozie工作流属性配置的策略(最佳实践) 坦率地讲,三种配置相互重叠,全部使用会使 阅读全文
摘要:
1. 简介 coordinator是workflow的定时提交器,基于时间条件与数据生成触发(based on time and data triggers)。简单点说,coordinator按所定义的时间周期进行轮询,若数据生成条件满足,则触发workflow任务;否则,则等待数据生成或跳过(调度 阅读全文
摘要:
1. Oozie简介 Yahoo开发工作流引擎Oozie(驭象者),用于管理Hadoop任务(支持MapReduce、Spark、Pig、Hive),把这些任务以DAG(有向无环图)方式串接起来。Oozie任务流包括:coordinator、workflow;workflow描述任务执行顺序的DAG 阅读全文
摘要:
1. 建表 以纯文本数据建表: create table default.calendar_table ( day_cal date ,week_cal string ,montn_cal string ,year_cal string ) row format delimited fields t 阅读全文
摘要:
编译: 使用的环境是:Hadoop2.6.0、Spark1.4.0、Hive0.13.1、Sqoop1.4.4 编译Oozie的命令:./mkdistro.sh -Phadoop-2 -Dhadoop.auth.version=2.6.0 -Ddistcp.version=2.6.0 -Dsqoop 阅读全文
摘要:
1.验证wokflow.xmloozie validate /appcom/apps/hduser0401/mbl_webtrends/workflow.xml 2.提交作业,作业进入PREP状态 oozie job -oozie http://localhost:11000/oozie -conf 阅读全文