大 T - 博客园

HDFS简介

摘要： HDFS的设计：流式数据访问：HDFS的构建思路：一次写入多次读取时最高效的访问模式。HDFS的概念：HDFS的块：默认64M。设计如此之大目的是为了最小化寻址开销。如果设置的足够大，磁盘传输数据的时间将明显大于寻址时间，这样一个由多个块组成的文件时间取决于磁盘传输速率。Namenode和Datanode:HDFS有两类节点，并以管理者-工作者模式运行，即一个Namenode和多个Datanode。Namenode管理文件系统的命名空间，它维护着文件系统树，及整棵树内所有文件和目录，这些信息以命名空间镜像文件和编辑日志文件永久保存在本地磁盘。Namenode也记录每个文件中各个块所在的节点信息阅读全文

posted @ 2013-10-18 13:20 大 T 阅读(165) 评论(0) 推荐(0)

关于MapReduce

摘要：角色：执行MapReduce任务的角色：JobTracker,TaskTracker,一个Hadoop集群只有一个JobTracker,JobTracker负责管理和调度工作，TaskTracker负责执行工作。数据流： MapReduce工作的简易图一个Reduce任务的MapReduce数据流多个Reduce任务的MapReduce数据流 ... 阅读全文

posted @ 2013-10-17 17:35 大 T 阅读(219) 评论(0) 推荐(0)

初识Hadoop

摘要：古代，人们用牛来拉重物。当一头牛拉不动一根圆木时，他们不曾想过培育更大更壮的牛。同样，我们也不需要尝试开发超级计算机，而应试着结合使用更多计算机系统。什么是Hadoop：Hadoop提供了一个可靠的共享存储和分析系统。包括两大核心功能，存储层：HDFS一个分布式文件系统，处理层：MapReduce一个分布式并行计算框架。Hadoop适合进行巨大的离线批处理数据，不适合实时任务为什么需要Hadoop:1.海量数据爆发...磁盘的容量快速增长，但是磁盘的访问速度却未与时俱进。2.由于磁盘限制导致关系型数据库无法对大规模数据进行批量分析。什么是MapReduce:MapReduce是一个批量查询处阅读全文

posted @ 2013-10-17 17:07 大 T 阅读(261) 评论(0) 推荐(0)

大T的空间

HDFS简介

关于MapReduce

初识Hadoop

导航

公告