2020 年 11月 4 日随笔档案 - 夜半钟声到客船

2020年11月4日

摘要：需求解决问题当每次读取hive表或者其他数据源，获取数据，相对其进行rdd操作，遇到任何类都需要df.rdd(row>row.getstring(0))去获取，就很麻烦，所以可以实现个通用的转换方式 1.dataframe转为rdd通用方法 /** * df转为rdd 通用方法 * * @para 阅读全文

posted @ 2020-11-04 23:46 夜半钟声到客船阅读(686) 评论(1) 推荐(0) 编辑

spark进行相同列的join时,只留下A与B关系,不要B与A

摘要：一、问题需求: 近期需要做一个商品集合的相关性计算,需要将所有商品进行两两组合笛卡尔积，但spark自带的笛卡尔积会造成过多重复，而且增加join量假如商品集合里面有： aa aa bb bb cc cc 两两进行组合会出现九种情况 aa,aa aa,bb aa,cc cc,aa bb,aa bb 阅读全文

posted @ 2020-11-04 23:23 夜半钟声到客船阅读(345) 评论(0) 推荐(0) 编辑

落霞与孤鹜齐飞

中山桥砖厂搬砖者

公告