摘要: Spark 中进行一些单元测试技巧:最近刚写了一点Spark上的单元测试,大概整理了一些 rdd测试 spark程序一般从集群中读取数据然后通过rdd进行转换,这其中涉及到集群,每次修改bug,上传到集群再运行测试,代价还是挺大;所以尽可能先本地进行单元测试,以减少在集群上运行时错误,特别是map等 阅读全文
posted @ 2019-06-29 20:58 大葱拌豆腐 阅读(3178) 评论(0) 推荐(0) 编辑
摘要: 随着公司平台用户数量与表数量的不断增多,各种表之间的数据流向也变得更加复杂,特别是某个任务中会对源表读取并进行一系列复杂的变换后又生成新的数据表,因此需要一套表血缘关系解析机制能清晰地解析出每个任务所形成的表血缘关系链。 实现思路: spark对sql的操作会形成一个dataframe,datafr 阅读全文
posted @ 2019-06-29 19:57 大葱拌豆腐 阅读(3636) 评论(1) 推荐(0) 编辑
摘要: 一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线 阅读全文
posted @ 2019-06-29 14:30 大葱拌豆腐 阅读(1214) 评论(0) 推荐(0) 编辑