上一页 1 2 3 4 5 6 7 8 9 10 ··· 45 下一页
摘要: 1、 资源分配 通过SparkSubmit进行提交应用后,首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master。Master收到Client的注册请求后将其加入待调度队列waitingDrivers,并等待分配执行资源。 1.1 Dirver调度(分 阅读全文
posted @ 2019-07-01 15:02 大葱拌豆腐 阅读(836) 评论(0) 推荐(0) 编辑
摘要: 随着对spark的了解,有时会觉得spark就像一个宝盒一样时不时会出现一些难以置信的新功能。每一个新功能被挖掘,就可以使开发过程变得更加便利一点。甚至使很多不可能完成或者完成起来比较复杂的操作,变成简单起来。有些功能是框架专门开放给用户使用,有些则是框架内部使用但是又对外暴露了接口,用户也可以使用 阅读全文
posted @ 2019-06-30 22:12 大葱拌豆腐 阅读(1366) 评论(0) 推荐(1) 编辑
摘要: Spark2为DataSet/DataFrame提供了一个stat方法,会返回一个DataFrameStatFunctins对象,可以调用其方法来实现数据的探索功能。 1 freqItems 包含了4个重载方法: 查看字段中的频繁元素集合,返回每个字段保安一个数组,包含了所有去重后的元素。suppo 阅读全文
posted @ 2019-06-30 22:05 大葱拌豆腐 阅读(821) 评论(0) 推荐(1) 编辑
摘要: 在流式计算过程中,难免会连接第三方存储平台(redis,mysql...)。在操作过程中,大部分情况是在foreachPartition/mapPartition算子中做连接操作。每一个分区只需要连接一次第三方存储平台就可以了。假如,当前streaming有100分区,当前流式计算宫分配了20个cp 阅读全文
posted @ 2019-06-30 21:32 大葱拌豆腐 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 数据过滤在很多场景都会应用到,特别是在大数据环境下。在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的。很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性能和计算性能可以达到几何级别的提升。很多第三方框架也实现了相应的功能,比如hbase框架实现的布隆过 阅读全文
posted @ 2019-06-30 13:24 大葱拌豆腐 阅读(3986) 评论(0) 推荐(0) 编辑
摘要: spark是一款优秀的框架,计算性能相当优异,已经发展成大数据主流计算引擎,在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果,避免重复计算。其中cache是persist的一个特列(cache相当于persist())。per 阅读全文
posted @ 2019-06-30 11:20 大葱拌豆腐 阅读(4139) 评论(0) 推荐(0) 编辑
摘要: 在做spark时,有些时候需要加载资源文件,需要在driver或者worker端访问。在client模式下可以使用IO流直接读取,但是在cluster模式下却不能直接读取,需要如下代码: 这是直接读取classPath路径下的文件,但是cluster模式下,driver有可能不再程序提交的客户端上, 阅读全文
posted @ 2019-06-30 11:08 大葱拌豆腐 阅读(3302) 评论(0) 推荐(0) 编辑
摘要: Spark 中进行一些单元测试技巧:最近刚写了一点Spark上的单元测试,大概整理了一些 rdd测试 spark程序一般从集群中读取数据然后通过rdd进行转换,这其中涉及到集群,每次修改bug,上传到集群再运行测试,代价还是挺大;所以尽可能先本地进行单元测试,以减少在集群上运行时错误,特别是map等 阅读全文
posted @ 2019-06-29 20:58 大葱拌豆腐 阅读(3178) 评论(0) 推荐(0) 编辑
摘要: 随着公司平台用户数量与表数量的不断增多,各种表之间的数据流向也变得更加复杂,特别是某个任务中会对源表读取并进行一系列复杂的变换后又生成新的数据表,因此需要一套表血缘关系解析机制能清晰地解析出每个任务所形成的表血缘关系链。 实现思路: spark对sql的操作会形成一个dataframe,datafr 阅读全文
posted @ 2019-06-29 19:57 大葱拌豆腐 阅读(3636) 评论(1) 推荐(0) 编辑
摘要: 一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线 阅读全文
posted @ 2019-06-29 14:30 大葱拌豆腐 阅读(1214) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 45 下一页