Google的数据量

 
  今天看到一篇关于google架构的文章,对其中披露的部分数据给震撼了。我们来看看,下面都是一些统计数据:

  •   2006年估计有450,000台廉价的商品服务器
  • 2005年索引了80亿网页。
  • 目前google有超过200个GFS(google文件系统)集群在运行。而每个集群大约有1000到5000台机器。 GFS存储着高达5PB的数据,成千上万的机器需要的数据都从GFS集群中检索,这些集群中数据读写的吞吐量可高达40GB每秒 
  • 目前google有6000个MapReduce应用程序在运行,并且以每月编写数百个新应用程序的速度在增长。
  • BigTable存储着数十亿的URL,数百TB的卫星图像数据和数亿用户的资料
  • 每天大约要处理超过20PB的数据量;
  • 对4,000台机器上约为1PB的数据排序花费约6小时20分左右的时间,并且排序的结果要在48,000块硬盘上来回复制3次

  而保证这一切的得归功于google的三个分布式基础设施:
 
  1. GFS(google 文件系统)
  2. MapReduce(一种编程模型,用于大规模数据集的并行运算)
  3. BigTable(结构化数据的分布存储系统)
 后记:
  真正处理大数据量的时候还是得自己定制啊
 
posted @ 2008-11-26 16:07  lovingprince  阅读(208)  评论(0编辑  收藏  举报