Linux下搭建mpi集群(ubuntu下用虚拟机测试)
一 建立SSH连接(无密码登陆)
1 SSH连接的简单介绍
SSH 为 Secure Shell 的缩写,中文翻译为安全外壳协议,建立在应用层,是一种远程连接安全协议。传统的telnet,pop,ftp都能够实现类似的功能,但是安全性上来说不足,因为他们都是明文传输,而SSH是密文传输,能够有效防止DNS欺骗,网络信息的拦截等等。
2 为什么要建立SSH连接
因为我建立集群的目的就是为了高性能的计算,这里我用了MPI,采用的是计算机之间的相互通信,所以必然涉及到计算机的访问登陆问题,所以我们建立集群计算机之间的SSH连接让他们能够无密码登陆,保证通信的快速性。
3具体的建立SSH连接步骤(都在虚拟机中操作)
1配置网卡
在ubuntu上可以通过图形界面进行设置,也可以通过指令来修改,大致模式如下:
sudo vi /etc/network/interfaces
auto eth0
iface eth0 inet static
address 192.168.1.100
netmask 255.255.255.0
gateway 192.168.1.1
sudo /etc/init.d/networking restart//重启服务
就是简单的修改配置文件来修改参数,最后一定要重启网络服务。按照此方式多配置几台虚拟机,然后测试通信。你可以通过自动获取的方式获取物理机在虚拟区域的IP,然后用作其他虚拟机的默认网关。接下来就是修改主机名
sudo vi /etc/hostname //修改本机的主机名
sudo vi /etc/hosts //地址解析,其实就是集群中所有主机的主机名与IP地址的对应
例如 node0 192.168.1.100
node1 192.168.1.101
host中的内容模式(主机名:端口 IP)SSH的默认端口是22
2创建互信的SSH连接
1)安装SSH,指令如下
sudo apt-get install ssh
2)首先理解下SSH的无密码连接机制,其实就是利用公钥和密钥来实现互相的无密码访问,所以接下来就是对公钥密钥的配置。
第一步 ssh-keygen -t rsa -P ' '//首先生成公钥和密钥对,这里的' '表示密码为空,这样就在你的个人用户目录下生成了.SSH文件夹,里面有id_rsa和id_rsa.pub,分别是公钥和密钥。
第二步 接下来就是关键的一步,就是公钥的传送。公钥需要给另一个能让你访问的机器下,因为公钥能够识别用户是谁。复制方法采用的是scp复制,这是一种远程复制方法需要密码的辅助。
scp .ssh/id_rsa.pub 目标主机名:/home/chenlb/id_rsa.pub解释下为什么是机器名,因为你在hosts文件中已经定义了目标主机名与ip的对应关系,所以可以运用主机名,这是远程传输,自然开始需要密码。
第三步 目标主机把从本机复制的id_rsa.pub(公钥)添加到.ssh/authorzied_keys文件里(所有的目标机器都必须装SSH协议),指令如下所示:cat id_rsa.pub >> .ssh/authorized_keys(这是目标机上的)。然后需要设置authorized_keys的权限,因为这个验证文件也需要给访问的机器权限才能完成之后的验证:chmod 600 .ssh/authorized_keys。
这样就完成对目标主机的无密码访问,但是互相访问就需要在调换一下位置再设置一下,步骤重复。
再次我说下对称加密解密的使用原理以及机制(RSA),我们就简单的用A主机和B主机来描述。A主机将公钥给了B主机,这就意味着A主机用自己的密钥访问B主机时,B主机可以用A主机的公钥来解密,从而知道是A访问自己,所以允许A访问。
二 创建NFS(网络文件系统)
由于mpi需要在每个机器中都安装,如果每个机器都装一次那样就太麻烦了,所以我们创建一个共享的网络文件系统,这样就可以修改一次全局修改,非常方便的使用。
1 安装NFS sudo apt-get install nfs-kernel-server nfs-common
2 在用户主目录下创建共享文件夹 mkdir sharedarea
3 修改sharedarea的所属权限,刚开始属于root,所以需要改为用户的
sudo chown 用户名:用户名 / home/用户名/sharedarea
4 设置下能访问的网段,即编辑/etc/exports文件。
sudo vi /etc/exports
添加/home/abc/cluster *(rw,sync,no_root_squash)
5 重启服务
sudo /etc/init.d/rpcbind restart
sudo /etc/init.d/nfs-kernel-server restart
6 其他机器挂载
首先其他机器得先安装NFS,和第一步一样,然后创建相同的文件夹,挂载命令如下:sudo mount -t nfs 第一个的主机名:/home/用户名/sharedarea sharedarea
切记,如果系统重启后则需要重新挂载否则产生变化就无法同步了,切记切记
三 安装MPI
1 首先来一个 sudo apt-get install mpich,不管啥都有了。然后去http://www.mpich.org/download下载一个稳定的linux版本的mpich,解压到共享文件夹。(tar xfz mpich-3.2.tar.gz 生成mpich-3.2文件夹)
2 由于默认安装在/usr/local/bin,所以需要改变一下安装目录
1)./configure --prefix=/home/love/cluster/mpich3.1 --disable-f77 --disable-fc
2)make
3)make install
3修改环境变量
这里肯定修改的是用户的环境变量
sudo vi .bashrc
•在.bashrc
文件的末尾添加:
PATH=/home/用户名/sharedarea/mpich3.2/bin:$PATH
export PATH
然后source .bashrc 重新刷新环境变量
这样MPI就在集群上完美安装。
四 编译运行
到了最后一步了,其实也是检验你是否成功的一步了,这里我们用到两个命令,mpicc和mpiexec,其实很简单
mpicc -g xx.c -o xx
mpiexec -np x(这是线程数) -f y(这是和hosts类似的文件,里面放着集群的文件名,注意所有的文件地址) ./目标文件名
接下来就大功告成了,享受一下集群的乐趣吧!