wubinghuan

2018年10月24日

spark中map与mapPartitions区别

摘要: 在spark中,map与mapPartitions两个函数都是比较常用,这里使用代码来解释一下两者区别 两个函数最终处理得到的结果是一样的 mapPartitions比较适合需要分批处理数据的情况,比如将数据插入某个表,每批数据只需要开启一次数据库连接,大大减少了连接开支,伪代码如下: 阅读全文

posted @ 2018-10-24 22:04 wubinghuan 阅读(14618) 评论(0) 推荐(1) 编辑

spark中map与flatMap的区别

摘要: 作为spark初学者对,一直对map与flatMap两个函数比较难以理解,这几天看了和写了不少例子,终于把它们搞清楚了 两者的区别主要在于action后得到的值 例子: 上述代码中,打印结果1、2、3分别如下面三图 打印结果1 打印结果2 打印结果3 对比结果2与结果3,很容易得出结论: map函数 阅读全文

posted @ 2018-10-24 21:44 wubinghuan 阅读(20757) 评论(1) 推荐(4) 编辑

2018年10月21日

使用Spark进行搜狗日志分析实例——map join的使用

摘要: map join相对reduce join来说,可以减少在shuff阶段的网络传输,从而提高效率,所以大表与小表关联时,尽量将小表数据先用广播变量导入内存,后面各个executor都可以直接使用 结果展示: 阅读全文

posted @ 2018-10-21 22:21 wubinghuan 阅读(2056) 评论(0) 推荐(0) 编辑

2018年10月18日

使用Spark进行搜狗日志分析实例——列出搜索不同关键词超过10个的用户及其搜索的关键词

摘要: 运行结果: 阅读全文

posted @ 2018-10-18 22:00 wubinghuan 阅读(1366) 评论(0) 推荐(0) 编辑

2018年10月17日

使用Spark进行搜狗日志分析实例——统计每个小时的搜索量

摘要: 运行结果: 搜狗日志下载地址:http://www.sogou.com/labs/resource/q.php 阅读全文

posted @ 2018-10-17 22:01 wubinghuan 阅读(2228) 评论(0) 推荐(0) 编辑

2016年10月14日

spring通过静态方法获得properties文件的值

摘要: 获得spring bean方法 使用value注解注入properties文件中的属性,提供静态访问 在其它类中就可以使用 Constant.bean().getServer()来获得server属性的值了 阅读全文

posted @ 2016-10-14 09:37 wubinghuan 阅读(855) 评论(0) 推荐(0) 编辑

2016年10月9日

flume从kafka中读取数据

摘要: 启动flume命令: 阅读全文

posted @ 2016-10-09 18:28 wubinghuan 阅读(871) 评论(0) 推荐(0) 编辑

导航