摘要: 2019年3月发表于计算机科学。可在知网下载。 本文内容 摘要 分布式机器学习的核心思想“分而治之”。分布式机器学习是机器学习的研究领域之一。分布式机器学习的主流平台有Spark、MXNet、Petuum、TensorFlow及PyTorch。本文对这些平台深入总结,分析对比其特性。其次,从数据并行 阅读全文
posted @ 2020-07-16 17:00 Tanglement 阅读(857) 评论(0) 推荐(0) 编辑
摘要: 什么是Shuffle 在RDD中,将每个相同key的value聚合起来。相同key的value可能在不同partition,也可能在不同节点。因此shuffle操作会影响多个节点。 常见的shuffle操作有:groupByKey(),reduceBykey()等。 Shuffle Write和Re 阅读全文
posted @ 2020-07-16 08:40 Tanglement 阅读(341) 评论(0) 推荐(0) 编辑