摘要: ## azkaban调度### 1、概述azkaban是一套调度系统,常用大数据作业调度。azkaban包括web和executor两套程序,web主要完成展示和交互,executor上完成调度和作业提交执行。### 2、安装略### 3、启动#### 3.1 启动web程序```shell$>/soft/azkaban/web/bin/azkaban-web-start.sh```#### 3.... 阅读全文
posted @ 2018-08-28 01:01 大道至简(老徐) 阅读(920) 评论(1) 推荐(0) 编辑
摘要: ## hive自定义UDTF函数叉分函数### 1、介绍从聚合体日志中需要拆解出来各子日志数据,然后单独插入到各日志子表中。通过表生成函数完成这一过程。### 2、定义ForkLogUDTF#### 2.1 HiveUtil工具类```javapackage com.oldboy.umeng.hive.util;import com.oldboy.umeng.common.domain.AppSt... 阅读全文
posted @ 2018-08-28 01:00 大道至简(老徐) 阅读(1036) 评论(0) 推荐(0) 编辑
摘要: ## hive数据仓库建设### 1、设计原生日志表原生日志表用来存放上报的原始日志,数据经过清洗加工后会进入到各个日志表中。#### 1.1 创建数据库```shell#创建数据库$hive>create database umeng_big11 ;```#### 1.2 创建原生日志表原生表使用分区表设计,分区字段为ym/d/hm,hive使用动态分区表,分区采用非严格模式,即所有分区都可以是... 阅读全文
posted @ 2018-08-28 00:59 大道至简(老徐) 阅读(563) 评论(0) 推荐(0) 编辑
摘要: ## Spark Streaming与Kafka集成### 1、介绍kafka是一个发布订阅消息系统,具有分布式、分区化、多副本提交日志特点。kafka项目在0.8和0.10之间引入了一种新型消费者API,注意选择正确的包以获得相应的特性。每个版本都是向后兼容的,因此0.8可以兼容0.9和0.10,但是0.10不能兼容早期版本。0.8支持python、Receiver流和Direct流,不支持偏移... 阅读全文
posted @ 2018-08-28 00:54 大道至简(老徐) 阅读(1033) 评论(0) 推荐(0) 编辑
摘要: ## Spark python集成### 1、介绍Spark支持python语言,对于大量的SQL类型的操作,不需要编译,可以直接提交python文件给spark来运行,因此非常简单方便,但是性能要比scala或java慢。对于常规任务,可以使用python来编写,特殊任务还是建议scala编写。### 2、使用pyspark启动spark shell(centos)#### 2.1 启动pysp... 阅读全文
posted @ 2018-08-28 00:52 大道至简(老徐) 阅读(745) 评论(0) 推荐(0) 编辑
摘要: ## Markdown快速上手指南### 1、Markdown介绍markdown可以实现快速html文档编辑,格式优没,并且不需要使用html元素。 markdown采用普通文本的形式,例如读书笔记等易于使用的文本格式进行编写。 如果实在需要生成markdown不支持的html元素的话,可以直接在文本中嵌入html标签,markdown并不会将其显式出来。 ### 2、标题标签markdo... 阅读全文
posted @ 2018-08-28 00:50 大道至简(老徐) 阅读(3219) 评论(1) 推荐(0) 编辑