DFS分布式文件系统
http://web.exiang.org/blog/user1/3/2182.html
在DFS出现之前较多使用的是NFS(Network File System), NFS 为一台服务器上的逻辑卷开放给远程客户端访问。客户端可以像操作本地硬盘一样操作另外一台服务器上的文件, 而不用知道它们是否文件存储在哪里。NFS可以简单地共享文件,但是它有一些缺点:
1.文件始终都只是存储在一台机器上。存储的容量不可能突破物理服务器的上限;
2.NFS并不考虑fail over,backup等高可靠性(HA)功能;
3.大并发时磁盘吞吐量较大,容易带来性能的瓶颈
之后出现了较多的DFS分布式文件系统,较著名的有
hadoop
Yahoo!在06年雇佣Doug Cotting,希望通过支持Hadoop来提高其计算能力,以对抗Google的GFS。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS放宽了POSIX的要求,允许以流的形式访问文件系统中的数据, HDFS提供了很强的failover,互为备份和高可靠性的分布式文件系统。
HadOOP的使用者有Yahoo, Facebook和Amazon EC2, Amazon S3。我们看到hadoop的logo是个小象,可见项目组对这个项目将来的预期。
Hadoop的另一目标是map-reduce计算。随着双核,多核甚至Stanford在做的1024核的出现,未来的编程重点会逐渐从OOP转向COP(concurrency-oriented programming)。而如何让程序员更简单地编写并行化程序,充分利用多核甚至分布式系统的计算能力,成为了很多研究的热点。Map Reduce就是在这种情况下出现的。
Mogile FS
MogileFS由memcahed的开发公司danga一款perl开发的产品,目前国内使用mogielFS的有图片托管网站yupoo等。MogileFS提供了自动的文件同步和备份,分布式存取,做到了底层文件系统透明,简单访问的目的。同时mogileFS有php扩展模块,方便php对文件系统的操作。
Hadoop和MogileFS都只适合一次写入,多次读的文件.并是大文件. 其中MogileFS相对对于小文件比较合适,适合用于图片服务器
Doug Cutting的访谈。
淘宝数据分析博客关于hadoop的实施指南
Hadoop一些中文介绍:
http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html
http://www.mogilefs.cn/?p=19
Rapleaf应用hadoop的心得http://www.vimeo.com/2084824