摘要: MPI中的网络通信的原理,需要解决以下几个问题: 1. MPI使用什么网络协议进行通信? 2.中央数据库是存储在哪一台机器上? 3.集群中如果有一台机器挂掉了是否会影响其他机器? 参考: https://aosabook.org/en/openmpi.html 根据MCA, 每个框架下的模块是可变的 阅读全文
posted @ 2018-04-09 21:25 HelloWooo 阅读(3677) 评论(0) 推荐(0) 编辑
摘要: 上一篇文章中说道,我们在 rte.h 中发现了有价值的说明: 我们一块一块来分析,首先看到第一块,关于 Process name Object: 第二块,是关于集体信息交换的: 更多的Modex操作信息,唯一能找到的参考是: https://github.com/open-mpi/ompi/wiki 阅读全文
posted @ 2018-04-09 11:14 HelloWooo 阅读(902) 评论(0) 推荐(0) 编辑
摘要: 接着上一篇的疑问,我们说道,会执行 try_kill_peers 函数,它的函数定义在 ompi_mpi_abort.c 下: 这个时候,就得去看看 ompi_rte_abort_peers(procs, nprocs, errcode) 函数的定义, 它在 rte_orte.h 中其实是一个宏定义 阅读全文
posted @ 2018-04-09 09:24 HelloWooo 阅读(503) 评论(0) 推荐(0) 编辑