摘要: spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就 阅读全文
posted @ 2019-01-03 21:04 静悟生慧 阅读(16408) 评论(1) 推荐(0) 编辑
摘要: 我们在用excel处理数据时,常常需要按不同的类别分别汇总数据。例如下图中需要求出每个业务员的总销售金额等。 通常情况下我们的数据量很大,而且需要较快的统计出来结果,所以我们要用一定的技巧才能计算出来。 其实,在excel中,有多种可以进行分类求和的方法,再大的数据量也能快速搞定。 我们在用exce 阅读全文
posted @ 2019-01-03 15:34 静悟生慧 阅读(6828) 评论(0) 推荐(0) 编辑