分布式文件系统的概念

Analysis of Six Distributed File Systems

1.HDFS: Hadoop Distributed File System

2.MooseFS:提供failover,有数据的版本信息

3.iRODS依赖本地文件系统

4.ceph

https://www.ustack.com/blog/ceph_infra/

5.GlusterFS缺点:

1)文件通过hash可以获得具体位置,但逆向怎么查询呢?
2)海量小文件性能不佳
3)非集中管理,全对等,复杂,效率低。
4)GlusterFS的哈希分布是以目录为基本单位的,文件的父目录利用扩展属性记录了子卷映射信息,子文件在父目录
所属存储服务器中进行分布。负载均衡性能差。
5)GlusterFS以原始数据格式(如EXT4、XFS、ZFS)存储数据,接触数据的人可以直接复制和查看,安全有问题。
6)简化的Cache设计,数据不一致

6.Lustre

7. ceph vs GlusterFS

在块比较小的时候,Ceph的IOPS性能非常高,在块大小为4KB的时候,甚至高出GlusterFS 40%左右,但是块大小大于
1MB的时候,Ceph的性能就不如GlusterFS了
GlusterFS采用Client直接写入的策略,即每次写入以后,节点之间不需要再同步;而Ceph采用的链式写入,即
Client先写入到一个节点上,然后节点之间再同步,因此会消耗一定的带宽,当没有专门的同步网络的时候,同步所
使用的网络带宽可能会影响到Ceph的写入性能。因此,写入方式的差异刚好能够解释GlusterFS在大块写入的时候会
比Ceph性能好。

8. 比较表

  HDFS  iRODS  Ceph  GlusterFS  Lustre
Architecture  Centralized  Centralized  Distributed  Decentralized  Centralized
Naming  Index  Database  CRUSH  EHA  Index
API  CLI,FUSE REST,API  CLI, FUSE API  FUSE, mount REST  FUSE,mount  FUSE
Fault detection  Fully connect  P2P  Fully connect  Detected  Manally
System availability  No failover  No failover  High  High  Failover
Data availability  Replication  Replication  Replication  RAID-like  No
Placement strategy  Auto  Manual  Auto  Manual  No
Replication  Async  Sync.  Sync  Sync  RAID-like
Cache consistency  WORM,lease  Lock  Lock  No  Lock
Load balancing  Auto  Manual  Manual  Manual  No
Input/Ouptput   I        O   I        O   I        O   I        O   I        O
1*20GB  407s      401s  520s      500s  419s      382s  341s         403s  374s                  415s
1000*1MB 72s       17s  86s         23s  76s        21s  59s                     18s  66s                      5s 
posted on 2017-02-24 18:32  随性随行  阅读(589)  评论(0编辑  收藏  举报