上一页 1 ··· 3 4 5 6 7 8 9 10 11 下一页
摘要: ## 统计指标### 1、概述统计指标主要是统计设备数,因此所谓的用户活跃数也是指设备来讲的。### 2、主要统计指标- 新增用户数 首次安装打开应用的设备,卸载再安装不是新增。日新增、周新增、月新增,需要全表扫描,周和月可以通过日新增累加求得。 - 日新增用户 [stat_new_day.sql] ```mysql -- 日新增用户 select t2.* ... 阅读全文
posted @ 2018-08-31 13:32 大道至简(老徐) 阅读(689) 评论(0) 推荐(0) 编辑
摘要: ## 脚本化加载文件与转储### 1、加载数据到原生表#### 1.1 介绍由于每天都会产生大量的日志数据,需要对每天的日志进行加载与清洗以及转储,编写脚本文件后,通过azkaban进行调度即可。#### 1.2 编写load_data_to_hive_raw_logs.sql加载数据到hive原生表,注意使用的动态分区,每天只加载前一天的数据。其中#号部分是需要替换成具体的时间值。```sql-... 阅读全文
posted @ 2018-08-31 13:30 大道至简(老徐) 阅读(244) 评论(0) 推荐(0) 编辑
摘要: ## azkaban调度### 1、概述azkaban是一套调度系统,常用大数据作业调度。azkaban包括web和executor两套程序,web主要完成展示和交互,executor上完成调度和作业提交执行。### 2、安装略### 3、启动#### 3.1 启动web程序```shell$>/soft/azkaban/web/bin/azkaban-web-start.sh```#### 3.... 阅读全文
posted @ 2018-08-28 01:01 大道至简(老徐) 阅读(912) 评论(1) 推荐(0) 编辑
摘要: ## hive自定义UDTF函数叉分函数### 1、介绍从聚合体日志中需要拆解出来各子日志数据,然后单独插入到各日志子表中。通过表生成函数完成这一过程。### 2、定义ForkLogUDTF#### 2.1 HiveUtil工具类```javapackage com.oldboy.umeng.hive.util;import com.oldboy.umeng.common.domain.AppSt... 阅读全文
posted @ 2018-08-28 01:00 大道至简(老徐) 阅读(1035) 评论(0) 推荐(0) 编辑
摘要: ## hive数据仓库建设### 1、设计原生日志表原生日志表用来存放上报的原始日志,数据经过清洗加工后会进入到各个日志表中。#### 1.1 创建数据库```shell#创建数据库$hive>create database umeng_big11 ;```#### 1.2 创建原生日志表原生表使用分区表设计,分区字段为ym/d/hm,hive使用动态分区表,分区采用非严格模式,即所有分区都可以是... 阅读全文
posted @ 2018-08-28 00:59 大道至简(老徐) 阅读(562) 评论(0) 推荐(0) 编辑
摘要: ## Spark Streaming与Kafka集成### 1、介绍kafka是一个发布订阅消息系统,具有分布式、分区化、多副本提交日志特点。kafka项目在0.8和0.10之间引入了一种新型消费者API,注意选择正确的包以获得相应的特性。每个版本都是向后兼容的,因此0.8可以兼容0.9和0.10,但是0.10不能兼容早期版本。0.8支持python、Receiver流和Direct流,不支持偏移... 阅读全文
posted @ 2018-08-28 00:54 大道至简(老徐) 阅读(1031) 评论(0) 推荐(0) 编辑
摘要: ## Spark python集成### 1、介绍Spark支持python语言,对于大量的SQL类型的操作,不需要编译,可以直接提交python文件给spark来运行,因此非常简单方便,但是性能要比scala或java慢。对于常规任务,可以使用python来编写,特殊任务还是建议scala编写。### 2、使用pyspark启动spark shell(centos)#### 2.1 启动pysp... 阅读全文
posted @ 2018-08-28 00:52 大道至简(老徐) 阅读(738) 评论(0) 推荐(0) 编辑
摘要: ## Markdown快速上手指南### 1、Markdown介绍markdown可以实现快速html文档编辑,格式优没,并且不需要使用html元素。 markdown采用普通文本的形式,例如读书笔记等易于使用的文本格式进行编写。 如果实在需要生成markdown不支持的html元素的话,可以直接在文本中嵌入html标签,markdown并不会将其显式出来。 ### 2、标题标签markdo... 阅读全文
posted @ 2018-08-28 00:50 大道至简(老徐) 阅读(3215) 评论(1) 推荐(0) 编辑
摘要: ## 项目01-flume、kafka与hdfs日志流转### 1、启动kafka集群```shell$>xkafka.sh start```### 3、创建kafka主题```shellkafka-topics.sh --zookeeper s102:2181 --create --topic topic-umeng-raw-logs2 --replication-fact... 阅读全文
posted @ 2018-08-27 20:48 大道至简(老徐) 阅读(547) 评论(0) 推荐(0) 编辑
摘要: ## 日志滚动与cron调度### 1、日志滚动nginx默认日志不能进行滚动,始终写入到一个文件中,即access.log。编写日志滚动的shell脚本,并使用linux的cron定时调度周期性进行日志文件滚动。#### 1.1 编写滚动脚本1. 创建roll_log.sh脚本文件 以root身份在/usr/local/bin/创建umeng_roll_log.sh文件 ```shell... 阅读全文
posted @ 2018-08-27 20:47 大道至简(老徐) 阅读(307) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 下一页