会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Orion's Blog
联邦学习、图机器学习、推荐系统
博客园
首页
新随笔
联系
订阅
管理
2022年6月3日
分布式机器学习:PageRank算法的并行化实现(PySpark)
摘要:
目前对图算法进行并行化的主要思想是将大图切分为多个子图,然后将这些子图分布到不同的机器上进行并行计算,在必要时进行跨机器通信同步计算得出结果。学术界和工业界提出了多种将大图切分为子图的划分方法,主要包括两种,边划分(Edge Cut)和点划分(Vertex Cut)。总而言之,边划分将节点分布到不同机器中(可能划分不平衡),而点划分将边分布到不同机器中(划分较为平衡)。接下来我们使用的算法为边划分。我们下面的算法是简化版,没有处理悬挂节点的问题。
阅读全文
posted @ 2022-06-03 22:06 orion-orion
阅读(1088)
评论(0)
推荐(1)
编辑
公告