11 2018 档案

摘要:flume总结 flume如何保证数据可靠性:JDBC FILE MEMORY ??? JDBC FILE: 传输慢 MEMORY:传输快,但是容易丢数据。解决:写个脚本监控如果flume挂了,瞬间启动 改造flume exec源 ,增加守护线程来监控目录 防止丢失数据 | redis缓存中,存储已 阅读全文
posted @ 2018-11-24 19:16 star521 阅读(1953) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming编程指南 概观 一个快速的例子 基本概念 链接 初始化StreamingContext 离散流(DStreams) 输入DStreams和Receivers DStreams的转换 DStreams的输出操作 DataFrame和SQL操作 MLlib运营 缓存/持久性 阅读全文
posted @ 2018-11-23 21:35 star521 阅读(397) 评论(0) 推荐(0) 编辑
摘要:TuningSpark 调整Spark 数据序列化 内存调整 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 其他考虑因素 并行程度 减少任务的内存使用情况 广播大变量 数据位置 摘要 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 并行程度 减少 阅读全文
posted @ 2018-11-23 20:31 star521 阅读(149) 评论(0) 推荐(0) 编辑
摘要:BigData 任重而道远 spark.apache.org/ https://flink-china.org https://stackoverflow.com/ https://mvnrepository.com/ https://github.com/star521li https://www 阅读全文
posted @ 2018-11-23 03:45 star521 阅读(175) 评论(0) 推荐(0) 编辑
摘要:flume自定义源防丢失 解决flume还未收集完日志便已经滚动,数据丢失问题 防重、防丢失 改造exec源 :监控目录、收集新文件 增加个守护线程不断监控目录 一次收集完一个文件 redis 3号库维护key 防止重复 UmengExecSource 阅读全文
posted @ 2018-11-22 21:58 star521 阅读(433) 评论(0) 推荐(0) 编辑
摘要:ChannelProcessor processEventBatch() 参照主机名拦截器HostInterceptor 写限速拦截器 实现 Interceptor 阅读全文
posted @ 2018-11-22 20:36 star521 阅读(350) 评论(0) 推荐(0) 编辑
摘要:// // _ooOoo_ // o8888888o // 88" . "88 // (| -_- |) // O\ = /O... 阅读全文
posted @ 2018-11-22 20:09 star521 阅读(1850) 评论(0) 推荐(0) 编辑
摘要:azkaban资源调度 1、启动azkaban 2、azkban web执行器 8081 3、s101:8081 4、jar包目录 创建有依赖关系dependencies的多个job描述 1_load_data_to_hive_raw_logs.job 2_1_data_clean_startupl 阅读全文
posted @ 2018-11-22 20:03 star521 阅读(369) 评论(0) 推荐(0) 编辑
摘要:使用ssm进行数据可视化 1.添加web支持 maven ssm框架 依赖 web.xml文件 beans.xml mybatis-config.xml Stat-act-daymapper.xml Sql语句 。。。。。。。。。。。。。 。。。。。。。。。。 展示 添加部署 添加tomcat 把可 阅读全文
posted @ 2018-11-22 20:02 star521 阅读(349) 评论(0) 推荐(0) 编辑
摘要:sqoop导出数据到mysql 需要启动yarn start-yarn.sh sqoop导出hive统计数据到mysql 1.复制mysql驱动程序到sqoop/lib下 2.在mysql中创建表 create table stat_act_day( day varchar(50), appid v 阅读全文
posted @ 2018-11-22 20:01 star521 阅读(448) 评论(0) 推荐(0) 编辑
摘要:一、flume限速拦截 flume架构图 flume源码查看分析 ExecSource exec数据源--实时收集 限速拦截器 代码实现 拦截器 Interceptor 接口 通过第一次发送的时间计算出 ,发送一个事件本应该所需的时间,与实际发送的时间做对比。如果实际的发送时间<本应该花费的时间,说 阅读全文
posted @ 2018-11-22 19:58 star521 阅读(968) 评论(0) 推荐(0) 编辑
摘要:从redis中查询月留存率 StatRemainRatioMonth 执行sql语句 阅读全文
posted @ 2018-11-22 19:55 star521 阅读(379) 评论(0) 推荐(0) 编辑
摘要:实时存储到redis,更新用户使用时间的最大、最小值--》来求留存率 避免全表扫描问题 1.spark 对接kafka 消费者 解析json 2.concat(appid,'#',appversion,'#',brand,'#',appplatform,'#',devicestyle,'#',ost 阅读全文
posted @ 2018-11-15 08:51 star521 阅读(635) 评论(0) 推荐(0) 编辑
摘要:连续活跃用户 近期流失用户 留存用户 阅读全文
posted @ 2018-11-15 08:25 star521 阅读(768) 评论(0) 推荐(0) 编辑
摘要:月活率 沉默用户 周回流用户 阅读全文
posted @ 2018-11-15 08:24 star521 阅读(703) 评论(0) 推荐(0) 编辑
摘要:新增用户 全表扫描 启动时间的最小值所在的天 各个维度下 with cube 昨日新增 第一次启动时间(启动时间最小值)在昨天的设备id stat_new_day.sql use big12_umeng ; create table if not exists stat_new_day( day s 阅读全文
posted @ 2018-11-11 20:59 star521 阅读(1653) 评论(0) 推荐(0) 编辑
摘要:定位分区-->with cube维度组合 --> 去null过滤 > 日活跃用户 spark执行代码 调用工具类 执行sql工具类:ExecSQLUtil public class StatDayActJava{ public static void main(String[] args) thro 阅读全文
posted @ 2018-11-11 20:51 star521 阅读(2581) 评论(0) 推荐(0) 编辑
摘要:funcs.sql 删除自定义函数、注册自定义函数 阅读全文
posted @ 2018-11-11 20:39 star521 阅读(184) 评论(0) 推荐(0) 编辑
摘要:删除 输入项目名 阅读全文
posted @ 2018-11-11 20:15 star521 阅读(214) 评论(0) 推荐(0) 编辑
摘要:选择git 执行文件 连接github 阅读全文
posted @ 2018-11-11 19:59 star521 阅读(134) 评论(0) 推荐(0) 编辑
摘要:安装anaconda 安装 pycharm 版本冲突 多版本兼容 BeautifulSoup这个库的安装 忽略大小写 mongodb安装 新建 文件夹 /data/db 开启服务端 mongod --dbpath D:\install\mongodb\data\db 查看是否开启 localhost 阅读全文
posted @ 2018-11-11 18:43 star521 阅读(1140) 评论(0) 推荐(0) 编辑
摘要:Linux下快捷键 alt+b 跳转到上一个单词使用alt+f 跳转到下一个单词使用Ctrl+c 结束正在运行的程序Ctrl+d 结束输入或退出shellCtrl+s 暂停屏幕输出【锁住终端】Ctrl+q 恢复屏幕输出【解锁终端】Ctrl+l 清屏,【是字母L的小写】等同于ClearCtrl+a 切 阅读全文
posted @ 2018-11-06 18:50 star521 阅读(421) 评论(0) 推荐(0) 编辑
摘要:日期工具类、UTF自定义日期函数 日期函数工具类 DateUtil 以date为参照,查询指定按照day、Month、week进行偏移日期时间格式 /** * 以date为参照,查询指定按照day进行偏移日期时间格式 */ public static String formatDay(Date da 阅读全文
posted @ 2018-11-05 22:41 star521 阅读(205) 评论(0) 推荐(0) 编辑
摘要:资源文件工具类把sql脚本转换为String字符串 >交给sql工具类ExecSQLUtil执行sql 1.资源文件工具类(ResourceUtil) 把sql脚本转换为String字符串 /** * 资源文件工具类 */ public class ResourceUtil { /** * 以Str 阅读全文
posted @ 2018-11-05 22:02 star521 阅读(554) 评论(0) 推荐(0) 编辑
摘要:统计指标 1.新增用户数 新增加的用户,时间维度。日新 去重 首次访问的用户 全表扫描 2.活跃 日活 月活 去重 分区表 ym/day 3.月活率 月活跃用户数占总用户数的比例(月活数 / 总用户数)。 4.沉默用户 安装启动一次,以后没有再使用,有时间长度限制(一周)。 5.本周回流 注册时> 阅读全文
posted @ 2018-11-05 18:54 star521 阅读(272) 评论(0) 推荐(0) 编辑
摘要:pySpark不用编译 1.利用java程序生成分区转储SQL语句 java程序 @Test public void genSQL() throws IntrospectionException { Class[] classes = { AppStartupLog.class , AppEvent 阅读全文
posted @ 2018-11-05 15:28 star521 阅读(337) 评论(0) 推荐(0) 编辑
摘要:配置nginx的日志滚动 使用linux的crod调度器,周期性生成新文件。 [编写滚动脚本 /usr/local/bin/umeng_roll_log.sh] chmod 777 修改可执行权限 #!/bin/bash dateStr=`date '+%Y-%m-%d-%H-%M'` mv /us 阅读全文
posted @ 2018-11-04 19:46 star521 阅读(311) 评论(0) 推荐(0) 编辑
摘要:打包过程参照 09友盟项目 2.启动zk hdfs yarn hive 3.拆分函数 注册函数 hive> add jar /soft/hive/lib/umeng_hive.jar ; 创建函数 drop function forkstartuplogs ; drop function forke 阅读全文
posted @ 2018-11-02 15:09 star521 阅读(332) 评论(0) 推荐(0) 编辑
摘要:1.日期工具类 import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.Locale; /** * 日期工具类 */ public clas 阅读全文
posted @ 2018-11-02 08:37 star521 阅读(272) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示