会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
forthlss
博客园
首页
新随笔
联系
订阅
管理
2018年11月13日
Pandas中dataframe以及spark中rdd使用groupByKey进行合并
摘要: 18.11.15更新,因为代码用set的话集群跑不了,所以更改为一直用dataframe进行操作,发现Pandas和spark中对dataframe的操作不同,所以增加了pandas的group操作 最近进行关联规则算法的学习,使用的是tpch里的数据,取了customer和part两行数据如图 而
阅读全文
posted @ 2018-11-13 15:08 forthlss
阅读(1783)
评论(0)
推荐(0)
编辑
公告