随笔分类 - 大数据

spark 高层通用调优

摘要：一，并行度如果并行度设置的不足，那么就会导致集群浪费。Spark自动会根据文件的大小，是否可分割等因素来设置map的数目(后面会详细讲解输入格式，同时详细讲解各种输入的map数的决定)。对于分布式reduce操作，例如groupbykey和reducebykey，默认它使用的是分区数最大的父RDD 阅读全文

posted @ 2019-07-09 12:38 _XiongH 阅读(289) 评论(0) 推荐(0)

大数据技术框架

摘要：大数据整体技术框架大数据技术框架简单入门知识。所有大数据项目都是遵循这套流程。阅读全文

posted @ 2019-07-07 16:29 _XiongH 阅读(600) 评论(0) 推荐(0)

BigData

随笔分类 - 大数据

公告