分布式文件系统的概念
Analysis of Six Distributed File Systems
1.HDFS: Hadoop Distributed File System
2.MooseFS:提供failover,有数据的版本信息
3.iRODS依赖本地文件系统
4.ceph
https://www.ustack.com/blog/ceph_infra/
5.GlusterFS缺点:
1)文件通过hash可以获得具体位置,但逆向怎么查询呢?
2)海量小文件性能不佳
3)非集中管理,全对等,复杂,效率低。
4)GlusterFS的哈希分布是以目录为基本单位的,文件的父目录利用扩展属性记录了子卷映射信息,子文件在父目录
所属存储服务器中进行分布。负载均衡性能差。
5)GlusterFS以原始数据格式(如EXT4、XFS、ZFS)存储数据,接触数据的人可以直接复制和查看,安全有问题。
6)简化的Cache设计,数据不一致
6.Lustre
7. ceph vs GlusterFS
在块比较小的时候,Ceph的IOPS性能非常高,在块大小为4KB的时候,甚至高出GlusterFS 40%左右,但是块大小大于
1MB的时候,Ceph的性能就不如GlusterFS了
GlusterFS采用Client直接写入的策略,即每次写入以后,节点之间不需要再同步;而Ceph采用的链式写入,即
Client先写入到一个节点上,然后节点之间再同步,因此会消耗一定的带宽,当没有专门的同步网络的时候,同步所
使用的网络带宽可能会影响到Ceph的写入性能。因此,写入方式的差异刚好能够解释GlusterFS在大块写入的时候会
比Ceph性能好。
8. 比较表
HDFS | iRODS | Ceph | GlusterFS | Lustre | |
Architecture | Centralized | Centralized | Distributed | Decentralized | Centralized |
Naming | Index | Database | CRUSH | EHA | Index |
API | CLI,FUSE REST,API | CLI, FUSE API | FUSE, mount REST | FUSE,mount | FUSE |
Fault detection | Fully connect | P2P | Fully connect | Detected | Manally |
System availability | No failover | No failover | High | High | Failover |
Data availability | Replication | Replication | Replication | RAID-like | No |
Placement strategy | Auto | Manual | Auto | Manual | No |
Replication | Async | Sync. | Sync | Sync | RAID-like |
Cache consistency | WORM,lease | Lock | Lock | No | Lock |
Load balancing | Auto | Manual | Manual | Manual | No |
Input/Ouptput | I O | I O | I O | I O | I O |
1*20GB | 407s 401s | 520s 500s | 419s 382s | 341s 403s | 374s 415s |
1000*1MB | 72s 17s | 86s 23s | 76s 21s | 59s 18s | 66s 5s |