随笔分类 - Google
摘要:MapReduce:大型集群上的简单数据处理摘要MapReduce是一个设计模型,也是一个处理和产生海量数据的一个相关实现。用户指定一个用于处理一个键值(key-value)对生成一组key/value对形式的中间结果的map函数,以及一个将中间结果键相同的键值对合并到一起的reduce函数。许多现实世界的任务都能满足这个模型,如这篇文章所示。使用这个功能形式实现的程序能够在大量的普通机器上并行执行。这个运行程序的系统关心下面的这些细节:输入数据的分区、一组机器上调度程序执行、处理机器失败问题,以及管理所需的机器内部的通信。这使没有任何并行处理和分布式系统经验的程序员能够利用这个大型分布式系统
阅读全文
摘要:摘要我们设计并实现了Google文件系统,它是一个可扩展的分布式分局系统,用于大型分布式数据密集型应用。它运行在便宜的普通硬件上,提供了容错处理;并为大量的客户端提供了高性能。在与之前的分布式文件系统提供相同功能的同时,我们的设计是由对我们应用的工作和技术环境的观察驱动的,无论当前还是未来,都与之前的文件系统有明显的区别。这使我们重新测试了传统的文件系统,并探索出完全不同的设计。这个文件系统完全符合我们的存储需求。作为一个存储平台在Google中得到大范围部署,用于存储服务产生和处理的数据,如搜索和需要大数据集的研发工作。目前为止最大的集群拥有几百TB的数据,存储在超过一千台机器的数千个磁盘上
阅读全文
摘要:Bigtable研究摘要Bigtable是一个用于管理结构型数据的分布式存储系统,被设计为可扩展到很大规模:通过数以千台的机器存储PB级数据。很多Google的工程都将数据存储在Bigtable中,包括网页索引、Google Earth和Google金融。这些应用在数据量和延迟方面对Bigtable的需求很不相同。尽管这些不尽相同的需求,Bigtable能够成功的为这些Google的产品提供一个弹性的、高性能的解决方案。在这篇文章中,我们描述Bigtable提供的简单的数据模型,它能给客户端在数据布局和格式上提供动态控制,而且我们会描述Bigtable的设计和实现。一、 介绍经过过去两年半的时
阅读全文