摘要: 一 背景 Spark社区为Spark Streaming提供了很多数据源接口,但是有些比较偏的数据源没有覆盖,由于公司技术栈选择,用了阿里云的MQ服务ONS,要做实时需求,要自己编写Receiver 二 技术实现 1.官网的例子已经比较详细,但是进入实践还需要慢慢调试,官方文档。 2.实现代码,由三 阅读全文
posted @ 2017-12-06 14:58 ChouYarn 阅读(1998) 评论(0) 推荐(0) 编辑
摘要: 1.由于公司性质,需要编写一个对字段加密解密的函数。 建立一个maven项目,导入jar包,跟环境的版本保持一致即可。 然后继承UDF即可 evaluate方法的输入输出即是UDF函数的输入输出Description注解部分提供函数的帮助信息. 2.创建永久函数 打成jar包(idea的打包即可)上 阅读全文
posted @ 2017-12-05 15:18 ChouYarn 阅读(693) 评论(0) 推荐(0) 编辑
摘要: 1.建立HBase预分区表。sql语句如下: 或者 分区文件格式如下: 00|10|20|30|40|50|60|70| 优点:合理设计rowkey 能让各个region 的并发请求 平均分配(趋于均匀) 使IO 效率达到最高 2.如果在建表之后没有设置压缩而数据量又很大怎么办。 ①disable 阅读全文
posted @ 2017-12-05 14:50 ChouYarn 阅读(1319) 评论(0) 推荐(0) 编辑
摘要: 1.Hive内部表,语句如下 建好表之后,进入hbase shell执行list能看到表s01_buyer_calllogs_info_ts,hive drop掉此表时,hbase也被drop。 2.Hive外部表,语句如下, 从方式需要先在hbase建好表,然后在hive中建表,hive drop 阅读全文
posted @ 2017-12-05 14:34 ChouYarn 阅读(21362) 评论(1) 推荐(3) 编辑
摘要: 一、概述 根据《深入理解Spark:核心思想与源码分析》一书,结合最新的spark源代码master分支进行源码阅读,对新版本的代码加上自己的一些理解,如有错误,希望指出。 1.块管理器BlockManager的实现 块管理器是Spark存储体系的核心组件,Driver Application和Ex 阅读全文
posted @ 2017-07-14 17:38 ChouYarn 阅读(1455) 评论(0) 推荐(2) 编辑
摘要: 一、概述 在实时应用之中,难免会遇到往NoSql数据如HBase中写入数据的情景。题主在工作中遇到如下情景,需要实时查询某个设备ID对应的账号ID数量。踩过的坑也挺多,举其中之一,如一开始选择使用NEO4J图数据库存储设备和账号的关系,当然也有其他的数据,最终构成一个复杂的图关系,但是这个图数据库免 阅读全文
posted @ 2017-02-10 21:51 ChouYarn 阅读(19736) 评论(0) 推荐(0) 编辑
摘要: 一、研究背景 互联网行业越来越重视自家客户的一些行为偏好了,无论是电商行业还是金融行业,基于用户行为可以做出很多东西,电商行业可以归纳出用户偏好为用户推荐商品,金融行业可以把用户行为作为反欺诈的一个点,本文主要介绍其中一个重要的功能点,基于行为日志统计用户行为路径,为运营人员提供更好的运营决策。可以 阅读全文
posted @ 2017-01-13 22:21 ChouYarn 阅读(8401) 评论(2) 推荐(1) 编辑
摘要: 使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以保存Direct方式的offset,但是可能会导致频繁写HDFS占用IO),所以每次出现问题的时候, 阅读全文
posted @ 2016-12-30 10:16 ChouYarn 阅读(4616) 评论(2) 推荐(0) 编辑
摘要: 正如每个Java文档所描述的那样,CountDownLatch是一个同步工具类,它允许一个或多个线程一直等待,直到其他线程的操作执行完后再执行。在Java并发中,countdownlatch的概念是一个常见的面试题,所以一定要确保你很好的理解了它。在这篇文章中,我将会涉及到在Java并发编 程中跟C 阅读全文
posted @ 2016-03-09 10:13 ChouYarn 阅读(284) 评论(0) 推荐(0) 编辑
摘要: Spark学习笔记之SparkRDD一、 基本概念RDD(resilient distributed datasets)弹性分布式数据集。来自于两方面① 内存集合和外部存储系统② 通过转换来自于其他RDD,如map,filter等2.创建操作(creation operation):RDD的创建由S... 阅读全文
posted @ 2015-04-18 19:12 ChouYarn 阅读(1834) 评论(0) 推荐(0) 编辑