摘要: P49 当数据集的大小超过一台计算机存储能力时,就有必要对数据集分区(partition)并将分区存储到若干台独立的计算机上。 管理网络中跨多台计算机存储的系统就叫分布式文件系统 Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS。 P49-50 HDFS的 阅读全文
posted @ 2017-01-20 15:53 Aviva_ye 阅读(1236) 评论(0) 推荐(0) 编辑
摘要: P3-P4: 目前遇见的问题很简单:硬盘容量不断提升,1TB的已成为主流,然而数据传输速度从1990年的4.4MB/s仅上升到当前约100MB/s 读取一个1TB的硬盘数据需要耗时至少2.5个小时。写入数据则会消耗更多时间。解决方法是从多个硬盘上读取,试想,若当前有100个盘,每个盘存储1%数据,则 阅读全文
posted @ 2017-01-20 12:06 Aviva_ye 阅读(287) 评论(0) 推荐(0) 编辑
摘要: hadoop2.0+主要变化: 全新的MapReduce 2,它建立在一个新的分布式资源管理系统之上,该系统称之为YARN。 YARN:分布式资源管理系统 阅读全文
posted @ 2017-01-20 11:03 Aviva_ye 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 一、并行数据库系统 新一代高性能的数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统。 MPP:大规模并行处理计算机:Massive Parallel Processor。指的是一种处理机技术。由大量通用微处理器构成的多处理机系统,适合多指令流多数据流处理。这样的系统是由许多松耦合处理 阅读全文
posted @ 2017-01-20 10:49 Aviva_ye 阅读(238) 评论(0) 推荐(0) 编辑