摘要: 在Intel的LAB配置安腾集群的NIS,由于这个集群和Xeon的集群在一个网段内,连在一个交换机上,所以,可能是Xeon集群的NIS配置影响了安腾集群(尽管两个NIS DOMAIN不一样),安腾集群上某个节点死活找不到NIS Server。 这个可以通过配置/etc/yp.conf文件,手动指定domain server的hostname来解决,这样,ypbind不用去broadcast查找domain server,直接就连过去了。 阅读全文
posted @ 2011-04-23 10:52 super119 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 如果我们的并行程序使用了MPI定义的I/O函数的话(在MPICH中是ROMIO这个库),那么,我们在配置NFS的时候是有一些特殊的地方的: 1、要求NFS的版本至少是3 2、要求nfslock这个service一定要打开 3、要求从节点在/etc/fstab文件中定义mount主节点的NFS的目录的时候,option一栏不能填defaults,至少要将 noac(no attribute cache)这个option配上(该配置不允许NFS缓存文件的属性,虽然noac会降低一些性能,但是它能保证在有多个NFS client读写文件的时候,都能正确读写数据)。 长见识啊!这里还有篇参考文档,这个 阅读全文
posted @ 2011-04-23 10:46 super119 阅读(1280) 评论(0) 推荐(0) 编辑
摘要: PVFS2 1.4.0说实在话,做的很不错,起码在安装配置这方面很简单-无需重新编译kernel,安装手册也写的很不错,安装很顺利,所以,不再赘述了,直接参考这篇Quick Start,很详细:很简单的将安装步骤说一下(我的集群四个节点,每个节点四个Core Xeon LV,主机名是compute1 --- compute4,compute1做管理节点,所以做pvfs 的matadata server,不做I/O Server,其他三个节点做I/O server) 然后就是做性能测试了,性能测试我做了两个,一个是将compute1上面的一个2.2G的文件拷贝到pvfs的目录下(/mnt/pvf 阅读全文
posted @ 2011-04-23 10:42 super119 阅读(732) 评论(0) 推荐(0) 编辑
摘要: 1、MPICH2 1.0.3中之所以出现了mpd这样的东西,MPICH的开发者声称这是将mpi程序的通讯和计算分开。在MPICH1中,我们直接用mpirun来执行 一个任务,此时,要先用rsh这些东西通讯,然后再启动进程,对出错调试、程序启动速度等都有影响。所以,在MPICH2中,将通讯这部分单独做出来,那 就是mpd了,而且用Python书写,简单易懂,从而解决上面的问题。 2、MPICH2推荐用mpiexec来执行任务而不是mpirun,因为的确,mpiexec相比mpirun,有了很多实用的feature,比如: mpiexec -n 1 -host loginnode master : 阅读全文
posted @ 2011-04-23 10:41 super119 阅读(1139) 评论(0) 推荐(0) 编辑
摘要: 很不幸,当PVFS集群中一块硬盘坏了以后,数据会全部丢失。PVFS的建议是每个节点用两块硬盘,做硬件RAID1,然后就可以避免这样的问题,在软件 层次上,PVFS不提供RAID相关的功能。这里是PVFS的开发人员给我的回信,写的很清楚了,人家还写了为什么PVFS不做软件层次上的RAID的原 因: On Sun, Jun 04, 2006 at 10:18:22PM +0800, Eric Zhang wrote: > Pvfs runs smoothly and everything is OK. But I want to know what > will happen if a 阅读全文
posted @ 2011-04-23 10:39 super119 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 经常说server的硬件和PC是如何如何不同,server是定义为7×24小时的,PC是8×5的,这里有一个企业级硬盘的材料,说明了企业级硬盘和PC硬盘的不同: 1、MTBF(平均无故障运转时间)。一般企业级硬盘都具备100万小时的MTBF时间,而PC硬盘只有10万小时的MTBF时间 2、企业级硬盘还有一些特别的技术。如西数硬盘的TLER(限时错误恢复),能在RAID环境中发挥作用。具有TLER功能的硬盘可在错误恢复状 态的第七秒向RAID控制器发出信息表示他还存在,从而避免RAID控制器卸载他,这种技术在SCSI接口产品中广泛使用,从而避免RAID阵列的无故丢 失,排除伪 阅读全文
posted @ 2011-04-23 10:34 super119 阅读(467) 评论(0) 推荐(0) 编辑
摘要: openmosix(www.openmosix.org) 是一个开源项目,前身是MOSIX,openmosix是MOSIX的开源实现。一般我们把HPC集群称为Beowulf集群,而MOSIX类型的集群则 和HPC集群完全不同。openmosix的集群是一个kernel patch,它在kernel这一层实现任务均衡的作用。比如说,一个集群有10个节点,那么,如果我们要压制10首MP3的话,那么只需要将这个任务提 交到任何一个节点,那么openmosix就会自动将这个任务分发到10个节点上,而且任务迁移的时间都是second级别的。由于openmosix是 kernel一级的,所以,对于上层ap 阅读全文
posted @ 2011-04-23 10:29 super119 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 现在购买SAN包含了如下的一些东西: 1、每台application server上要有一块HBA卡 2、需要一个光纤交换机 3、需要一个storage array,这个阵列上必须要有光纤接口(该接口将连接到阵列上的RAID控制器上)。现在很多的阵列都有两个光纤接口(互为冗余)。 4、两个光纤接口要能做到Failover,需要在Application server上安装一个所谓的“多路径冗余控制软件”,该软件就能做到当一个光纤接口down的时候,自动failover到另外一个接口上。这个软件是 需要费用的,一般我们所谓的买san的license,就是买这个软件的license,一台服务器连接到 阅读全文
posted @ 2011-04-23 10:28 super119 阅读(329) 评论(0) 推荐(0) 编辑