摘要: 随着对spark的了解,有时会觉得spark就像一个宝盒一样时不时会出现一些难以置信的新功能。每一个新功能被挖掘,就可以使开发过程变得更加便利一点。甚至使很多不可能完成或者完成起来比较复杂的操作,变成简单起来。有些功能是框架专门开放给用户使用,有些则是框架内部使用但是又对外暴露了接口,用户也可以使用 阅读全文
posted @ 2019-06-30 22:12 大葱拌豆腐 阅读(1366) 评论(0) 推荐(1) 编辑
摘要: Spark2为DataSet/DataFrame提供了一个stat方法,会返回一个DataFrameStatFunctins对象,可以调用其方法来实现数据的探索功能。 1 freqItems 包含了4个重载方法: 查看字段中的频繁元素集合,返回每个字段保安一个数组,包含了所有去重后的元素。suppo 阅读全文
posted @ 2019-06-30 22:05 大葱拌豆腐 阅读(821) 评论(0) 推荐(1) 编辑
摘要: 在流式计算过程中,难免会连接第三方存储平台(redis,mysql...)。在操作过程中,大部分情况是在foreachPartition/mapPartition算子中做连接操作。每一个分区只需要连接一次第三方存储平台就可以了。假如,当前streaming有100分区,当前流式计算宫分配了20个cp 阅读全文
posted @ 2019-06-30 21:32 大葱拌豆腐 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 数据过滤在很多场景都会应用到,特别是在大数据环境下。在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的。很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性能和计算性能可以达到几何级别的提升。很多第三方框架也实现了相应的功能,比如hbase框架实现的布隆过 阅读全文
posted @ 2019-06-30 13:24 大葱拌豆腐 阅读(3986) 评论(0) 推荐(0) 编辑
摘要: spark是一款优秀的框架,计算性能相当优异,已经发展成大数据主流计算引擎,在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果,避免重复计算。其中cache是persist的一个特列(cache相当于persist())。per 阅读全文
posted @ 2019-06-30 11:20 大葱拌豆腐 阅读(4139) 评论(0) 推荐(0) 编辑
摘要: 在做spark时,有些时候需要加载资源文件,需要在driver或者worker端访问。在client模式下可以使用IO流直接读取,但是在cluster模式下却不能直接读取,需要如下代码: 这是直接读取classPath路径下的文件,但是cluster模式下,driver有可能不再程序提交的客户端上, 阅读全文
posted @ 2019-06-30 11:08 大葱拌豆腐 阅读(3302) 评论(0) 推荐(0) 编辑