Loading

Spark分区

  • 默认采用的是Hash分区
    缺点:可能导致每个分区中数据量的不均匀,极端情况下会导致某些分区拥有RDD的全部数据

  • Ranger分区
    要求RDD中的KEY类型必须可以排序

  • 自定义分区
    根据需求,自定义分区

posted @ 2022-01-24 23:18  Zhbeii  阅读(36)  评论(0编辑  收藏  举报