star521

2018年11月24日

摘要： flume总结 flume如何保证数据可靠性：JDBC FILE MEMORY ？？？ JDBC FILE: 传输慢 MEMORY：传输快，但是容易丢数据。解决：写个脚本监控如果flume挂了，瞬间启动改造flume exec源，增加守护线程来监控目录防止丢失数据 | redis缓存中，存储已阅读全文

posted @ 2018-11-24 19:16 star521 阅读(1941) 评论(0) 推荐(0) 编辑

2018年11月23日

01 sparkAPI-阅读总结-sparkstreaming

摘要： Spark Streaming编程指南概观一个快速的例子基本概念链接初始化StreamingContext 离散流（DStreams）输入DStreams和Receivers DStreams的转换 DStreams的输出操作 DataFrame和SQL操作 MLlib运营缓存/持久性阅读全文

posted @ 2018-11-23 21:35 star521 阅读(381) 评论(0) 推荐(0) 编辑

01 sparkAPI-阅读总结-TuningSpark

摘要： TuningSpark 调整Spark 数据序列化内存调整内存管理概述确定内存消耗调整数据结构序列化RDD存储垃圾收集调整其他考虑因素并行程度减少任务的内存使用情况广播大变量数据位置摘要内存管理概述确定内存消耗调整数据结构序列化RDD存储垃圾收集调整并行程度减少阅读全文

posted @ 2018-11-23 20:31 star521 阅读(141) 评论(0) 推荐(0) 编辑

30 友盟项目---体会篇

摘要： BigData 任重而道远 spark.apache.org/ https://flink-china.org https://stackoverflow.com/ https://mvnrepository.com/ https://github.com/star521li https://www 阅读全文

posted @ 2018-11-23 03:45 star521 阅读(172) 评论(0) 推荐(0) 编辑

2018年11月22日

29 友盟大数据--flume源码查看分析ExecSource--UmengExecSource 改造exec源：监控目录、收集新文件---增加个守护线程不断监控目录

摘要： flume自定义源防丢失解决flume还未收集完日志便已经滚动，数据丢失问题防重、防丢失改造exec源：监控目录、收集新文件增加个守护线程不断监控目录一次收集完一个文件 redis 3号库维护key 防止重复 UmengExecSource 阅读全文

posted @ 2018-11-22 21:58 star521 阅读(414) 评论(0) 推荐(0) 编辑

28 友盟大数据--flume源码查看分析- ExecSource-参照主机名拦截器HostInterceptor ---写限速拦截器

摘要： ChannelProcessor processEventBatch() 参照主机名拦截器HostInterceptor 写限速拦截器实现 Interceptor 阅读全文

posted @ 2018-11-22 20:36 star521 阅读(342) 评论(0) 推荐(0) 编辑

程序员佛祖保佑无bug、发发发 -注释代码

摘要： // // _ooOoo_ // o8888888o // 88" . "88 // (| -_- |) // O\ = /O... 阅读全文

posted @ 2018-11-22 20:09 star521 阅读(1829) 评论(0) 推荐(0) 编辑

27 友盟项目--azkaban资源调度

摘要： azkaban资源调度 1、启动azkaban 2、azkban web执行器 8081 3、s101:8081 4、jar包目录创建有依赖关系dependencies的多个job描述 1_load_data_to_hive_raw_logs.job 2_1_data_clean_startupl 阅读全文

posted @ 2018-11-22 20:03 star521 阅读(366) 评论(0) 推荐(0) 编辑

26 友盟项目--数据可视化

摘要：使用ssm进行数据可视化 1.添加web支持 maven ssm框架依赖 web.xml文件 beans.xml mybatis-config.xml Stat-act-daymapper.xml Sql语句。。。。。。。。。。。。。。。。。。。。。。。展示添加部署添加tomcat 把可阅读全文

posted @ 2018-11-22 20:02 star521 阅读(345) 评论(0) 推荐(0) 编辑

25 友盟项目--sqoop从hive导出数据到mysql

摘要： sqoop导出数据到mysql 需要启动yarn start-yarn.sh sqoop导出hive统计数据到mysql 1.复制mysql驱动程序到sqoop/lib下 2.在mysql中创建表 create table stat_act_day( day varchar(50), appid v 阅读全文

posted @ 2018-11-22 20:01 star521 阅读(443) 评论(0) 推荐(0) 编辑

24 友盟项目--优化-flume限速拦截、flume自定义源防丢失--改造exec源守护线程监控目录(防丢失)redis维护key(去重)

摘要：一、flume限速拦截 flume架构图 flume源码查看分析 ExecSource exec数据源--实时收集限速拦截器代码实现拦截器 Interceptor 接口通过第一次发送的时间计算出，发送一个事件本应该所需的时间，与实际发送的时间做对比。如果实际的发送时间<本应该花费的时间，说阅读全文

posted @ 2018-11-22 19:58 star521 阅读(949) 评论(0) 推荐(0) 编辑

23 友盟项目--sparkstreaming对接kafka、集成redis--从redis中查询月留存率

摘要：从redis中查询月留存率 StatRemainRatioMonth 执行sql语句阅读全文

posted @ 2018-11-22 19:55 star521 阅读(378) 评论(0) 推荐(0) 编辑

2018年11月15日

22 友盟项目--sparkstreaming对接kafka、集成redis--从redis中存储用户使用app的最小时间戳min , 最大时间戳max

摘要：实时存储到redis，更新用户使用时间的最大、最小值--》来求留存率避免全表扫描问题 1.spark 对接kafka 消费者解析json 2.concat(appid,'#',appversion,'#',brand,'#',appplatform,'#',devicestyle,'#',ost 阅读全文

posted @ 2018-11-15 08:51 star521 阅读(632) 评论(0) 推荐(0) 编辑

21 友盟项目--统计连续活跃用户、近期流失用户、留存用户--创建表并插入选择出的数据

摘要：连续活跃用户近期流失用户留存用户阅读全文

posted @ 2018-11-15 08:25 star521 阅读(766) 评论(0) 推荐(0) 编辑

20 友盟项目--统计月活率、沉默用户、周回流用户--创建表并插入选择出的数据

摘要：月活率沉默用户周回流用户阅读全文

posted @ 2018-11-15 08:24 star521 阅读(697) 评论(0) 推荐(0) 编辑

公告