摘要: RDD 分布式计算需要: 分区控制 Shuffle控制 数据存储\序列化\发送 数据计算API 等一系列功能 这些功能, 不能简单的通过python内置的本地集合对象(如List\字典等)去完成, 我们在分布式框架中, 需要有一个统一的数据抽象对象, 来实现上述分布式计算所需要功能, 这个抽象对象, 阅读全文
posted @ 2022-01-25 15:31 帅爆太阳的男人 阅读(92) 评论(0) 推荐(0) 编辑