摘要: 需求解决问题 当每次读取hive表或者其他数据源,获取数据,相对其进行rdd操作,遇到任何类都需要df.rdd(row>row.getstring(0))去获取,就很麻烦,所以可以实现个通用的转换方式 1.dataframe转为rdd通用方法 /** * df转为rdd 通用方法 * * @para 阅读全文
posted @ 2020-11-04 23:46 夜半钟声到客船 阅读(686) 评论(1) 推荐(0) 编辑
摘要: 一、问题需求: 近期需要做一个商品集合的相关性计算,需要将所有商品进行两两组合笛卡尔积,但spark自带的笛卡尔积会造成过多重复,而且增加join量 假如商品集合里面有: aa aa bb bb cc cc 两两进行组合会出现九种情况 aa,aa aa,bb aa,cc cc,aa bb,aa bb 阅读全文
posted @ 2020-11-04 23:23 夜半钟声到客船 阅读(345) 评论(0) 推荐(0) 编辑