随笔分类 - hadoop基础入门系列
摘要:认识Hive 对十Hadoop的出现,无论是业界还是学术界对其都给予了极高的关注度,Hadoop及其生态圈提供了一个成熟高效的处理海量数据集的解决方案。随着Hadoop越来越流行,一个问题也随之产生:用户如何从现有的数据基础架构转移到Hadoop上,而所谓的数据...
阅读全文
摘要:本节将会从作业的角度来解释一个作业是如何在Hadoop的MapReduce计算框架下提交、运行等。一个MapReduce作业运行过程如图作业提交用户的MapReduce作业运行时己经设置作业运行时的各种信息,如Mapper类、Reducer类等,并通过job.wait...
阅读全文
摘要:从前面的例子我们已经大致了解了一个MapReduce的作业的过程,但是这样是不够的,本节将深入探讨MapReduce的整个过程。从输入到输出 从前而的WordCount可以看出,一个MapReduce作业经过了input, map, combine, r...
阅读全文
摘要:从MapReduce 的特点可以看出MapReduce的优点非常明显,但是MapReduce也有其局限性,并不是处理海量数据的普适方法。它的局限性主要体现在以下几点。 MapReduce的执行速度慢。一个普通的MapReduce作业一般在分钟级别完成,复杂的...
阅读全文
摘要:一个MapReduce作业的计算工作都由TaskTracker完成, 用户向Hadoop提交作业,JobTracke:会将该作业拆分为多个任务,并根据心跳信息交由空闲的TaskTracker启动。一个TaskTracker能够启动的任务数量是由TaskTrac...
阅读全文
摘要:MapReduce作业(job)是用户提交的最小单位,而Map/Reduce任务(task)是MapReducev算的缎小单位,如图示。 当用户向Hadoop提交一个MapReduce作业时,JobTracke的作业分解模块会将其分拆为任务交由各个Tas...
阅读全文
摘要:与HDFS相同的是,Hadoop的MapReduce计算框架也是主从架构,支撑MapReduce计算框架的是JobTracke:和TaskTracke:两类后台进程,如图JobTrackerJobTracke:在集群中扮演了主的角色,它主要负责任务调度和集群资...
阅读全文
摘要:MapReduce源于Google一篇论文,它充分借鉴了分而治之的思想,将一个数据处理过程拆分为主要的Map(映射)与Reduce(化简)两步。用户不懂分布式计算框架的内部运行机制,只要能用Map和Reduce的思想描述清楚要处理的问题,即编写map()和...
阅读全文
摘要:HDFS的设计理念是源于非常朴素的思想:当数据集大小超过单台计算机的存储能力时,就有必要将其进行分区,并且存储到若干台单独的计算机上,而管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distribute filesystem).hadoop 具有一个抽象的文...
阅读全文
摘要:hadoop在安装前,咱们需要知道一下几点。 1.hadoop运行模式 单机(本地)模式:这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有...
阅读全文
摘要:根据对HDFS架构和MapReduce架构的了解,咱们首先清楚的明白了,HDFS和MapReduce的集群其实都是由一些守护进程组成的,而所有的守护进程和运行他们的节点就构成了Hadoop集群。由上图咱们可以看到NameNode进程和JobTasker进程在一个节点上...
阅读全文
摘要:构成MapReduce集群为两类节点, JobTeacker和TaskTrasker。 与HDFS架构类似,MapReduce也采用主从(master、slave)的架构。JobTeacker和TaskTrasker分别是两种守护进程,运行在各自的节点上,客户端负责用...
阅读全文
摘要:构成HDFS 集群的主要是两个节点,并且,以主从(master/slave ) 的模式,或者说是NameNode管理者-DataNode工作者的模式运行,一般来说,都是一个管理者对应多个工作者。还有一个节点,叫做SecondaryNameNode,作为NameNode...
阅读全文