Google的数据量
今天看到一篇关于google架构的文章,对其中披露的部分数据给震撼了。我们来看看,下面都是一些统计数据:
- 2006年估计有450,000台廉价的商品服务器
- 2005年索引了80亿网页。
- 目前google有超过200个GFS(google文件系统)集群在运行。而每个集群大约有1000到5000台机器。 GFS存储着高达5PB的数据,成千上万的机器需要的数据都从GFS集群中检索,这些集群中数据读写的吞吐量可高达40GB每秒
- 目前google有6000个MapReduce应用程序在运行,并且以每月编写数百个新应用程序的速度在增长。
- BigTable存储着数十亿的URL,数百TB的卫星图像数据和数亿用户的资料
- 每天大约要处理超过20PB的数据量;
- 对4,000台机器上约为1PB的数据排序花费约6小时20分左右的时间,并且排序的结果要在48,000块硬盘上来回复制3次
而保证这一切的得归功于google的三个分布式基础设施:
- GFS(google 文件系统)
- MapReduce(一种编程模型,用于大规模数据集的并行运算)
- BigTable(结构化数据的分布存储系统)
真正处理大数据量的时候还是得自己定制啊