2019 年 6月 30 日随笔档案 - 大葱拌豆腐

2019年6月30日

摘要：随着对spark的了解，有时会觉得spark就像一个宝盒一样时不时会出现一些难以置信的新功能。每一个新功能被挖掘，就可以使开发过程变得更加便利一点。甚至使很多不可能完成或者完成起来比较复杂的操作，变成简单起来。有些功能是框架专门开放给用户使用，有些则是框架内部使用但是又对外暴露了接口，用户也可以使用阅读全文

posted @ 2019-06-30 22:12 大葱拌豆腐阅读(1366) 评论(0) 推荐(1) 编辑

Spark2-数据探索

摘要： Spark2为DataSet/DataFrame提供了一个stat方法，会返回一个DataFrameStatFunctins对象，可以调用其方法来实现数据的探索功能。 1 freqItems 包含了4个重载方法：查看字段中的频繁元素集合，返回每个字段保安一个数组，包含了所有去重后的元素。suppo 阅读全文

posted @ 2019-06-30 22:05 大葱拌豆腐阅读(821) 评论(0) 推荐(1) 编辑

spark streaming 流式计算---跨batch连接池共享（JVM共享连接池）

摘要：在流式计算过程中，难免会连接第三方存储平台（redis,mysql...)。在操作过程中，大部分情况是在foreachPartition/mapPartition算子中做连接操作。每一个分区只需要连接一次第三方存储平台就可以了。假如，当前streaming有100分区，当前流式计算宫分配了20个cp 阅读全文

posted @ 2019-06-30 21:32 大葱拌豆腐阅读(654) 评论(0) 推荐(0) 编辑

Spark布隆过滤器(bloomFilter)

摘要：数据过滤在很多场景都会应用到，特别是在大数据环境下。在数据量很大的场景实现过滤或者全局去重，需要存储的数据量和计算代价是非常庞大的。很多小伙伴第一念头肯定会想到布隆过滤器，有一定的精度损失，但是存储性能和计算性能可以达到几何级别的提升。很多第三方框架也实现了相应的功能，比如hbase框架实现的布隆过阅读全文

posted @ 2019-06-30 13:24 大葱拌豆腐阅读(3986) 评论(0) 推荐(0) 编辑

spark性能优化----缓存清除

摘要： spark是一款优秀的框架，计算性能相当优异，已经发展成大数据主流计算引擎，在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果，避免重复计算。其中cache是persist的一个特列（cache相当于persist()）。per 阅读全文

posted @ 2019-06-30 11:20 大葱拌豆腐阅读(4139) 评论(0) 推荐(0) 编辑

spark-submit --files 动态加载外部资源文件

摘要：在做spark时，有些时候需要加载资源文件，需要在driver或者worker端访问。在client模式下可以使用IO流直接读取,但是在cluster模式下却不能直接读取，需要如下代码：这是直接读取classPath路径下的文件,但是cluster模式下，driver有可能不再程序提交的客户端上，阅读全文

posted @ 2019-06-30 11:08 大葱拌豆腐阅读(3302) 评论(0) 推荐(0) 编辑

公告