hadoop基础入门系列 - 随笔分类 - keepgoon

摘要：认识Hive 对十Hadoop的出现，无论是业界还是学术界对其都给予了极高的关注度，Hadoop及其生态圈提供了一个成熟高效的处理海量数据集的解决方案。随着Hadoop越来越流行，一个问题也随之产生:用户如何从现有的数据基础架构转移到Hadoop上，而所谓的数据... 阅读全文

posted @ 2017-05-10 16:41 keepgoon 阅读(370) 评论(0) 推荐(0)

摘要：本节将会从作业的角度来解释一个作业是如何在Hadoop的MapReduce计算框架下提交、运行等。一个MapReduce作业运行过程如图作业提交用户的MapReduce作业运行时己经设置作业运行时的各种信息，如Mapper类、Reducer类等，并通过job.wait... 阅读全文

posted @ 2017-05-09 10:44 keepgoon 阅读(179) 评论(0) 推荐(0)

mapreduce 的过程

摘要：从前面的例子我们已经大致了解了一个MapReduce的作业的过程，但是这样是不够的，本节将深入探讨MapReduce的整个过程。从输入到输出从前而的WordCount可以看出，一个MapReduce作业经过了input, map, combine, r... 阅读全文

posted @ 2017-05-08 22:18 keepgoon 阅读(581) 评论(0) 推荐(0)

摘要：从MapReduce 的特点可以看出MapReduce的优点非常明显，但是MapReduce也有其局限性，并不是处理海量数据的普适方法。它的局限性主要体现在以下几点。 MapReduce的执行速度慢。一个普通的MapReduce作业一般在分钟级别完成，复杂的... 阅读全文

posted @ 2017-05-04 17:47 keepgoon 阅读(569) 评论(0) 推荐(0)

摘要：一个MapReduce作业的计算工作都由TaskTracker完成，用户向Hadoop提交作业，JobTracke:会将该作业拆分为多个任务，并根据心跳信息交由空闲的TaskTracker启动。一个TaskTracker能够启动的任务数量是由TaskTrac... 阅读全文

posted @ 2017-05-04 17:31 keepgoon 阅读(310) 评论(0) 推荐(0)

摘要：MapReduce作业(job)是用户提交的最小单位，而Map/Reduce任务(task)是MapReducev算的缎小单位，如图示。当用户向Hadoop提交一个MapReduce作业时，JobTracke的作业分解模块会将其分拆为任务交由各个Tas... 阅读全文

posted @ 2017-05-04 17:22 keepgoon 阅读(294) 评论(0) 推荐(0)

摘要：与HDFS相同的是，Hadoop的MapReduce计算框架也是主从架构，支撑MapReduce计算框架的是JobTracke:和TaskTracke:两类后台进程，如图JobTrackerJobTracke:在集群中扮演了主的角色，它主要负责任务调度和集群资... 阅读全文

posted @ 2017-05-04 17:12 keepgoon 阅读(187) 评论(0) 推荐(0)

摘要：MapReduce源于Google一篇论文，它充分借鉴了分而治之的思想，将一个数据处理过程拆分为主要的Map(映射)与Reduce(化简)两步。用户不懂分布式计算框架的内部运行机制，只要能用Map和Reduce的思想描述清楚要处理的问题，即编写map()和... 阅读全文

posted @ 2017-05-02 22:59 keepgoon 阅读(649) 评论(0) 推荐(0)

hadoop基石HDFS

摘要：HDFS的设计理念是源于非常朴素的思想：当数据集大小超过单台计算机的存储能力时，就有必要将其进行分区，并且存储到若干台单独的计算机上，而管理网络中跨多台计算机存储的文件系统称为分布式文件系统（distribute filesystem）.hadoop 具有一个抽象的文... 阅读全文

posted @ 2017-04-26 16:14 keepgoon 阅读(268) 评论(0) 推荐(0)

摘要：hadoop在安装前，咱们需要知道一下几点。 1.hadoop运行模式单机（本地）模式：这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有... 阅读全文

posted @ 2017-04-26 10:37 keepgoon 阅读(160) 评论(0) 推荐(0)

Hadoop 架构简介

摘要：根据对HDFS架构和MapReduce架构的了解，咱们首先清楚的明白了，HDFS和MapReduce的集群其实都是由一些守护进程组成的，而所有的守护进程和运行他们的节点就构成了Hadoop集群。由上图咱们可以看到NameNode进程和JobTasker进程在一个节点上... 阅读全文

posted @ 2017-04-26 10:09 keepgoon 阅读(120) 评论(0) 推荐(0)

摘要：构成MapReduce集群为两类节点， JobTeacker和TaskTrasker。与HDFS架构类似，MapReduce也采用主从（master、slave）的架构。JobTeacker和TaskTrasker分别是两种守护进程，运行在各自的节点上，客户端负责用... 阅读全文

posted @ 2017-04-26 09:46 keepgoon 阅读(137) 评论(0) 推荐(0)

Hadoop HDFS 架构

摘要：构成HDFS 集群的主要是两个节点，并且，以主从（master/slave ）的模式，或者说是NameNode管理者-DataNode工作者的模式运行，一般来说，都是一个管理者对应多个工作者。还有一个节点，叫做SecondaryNameNode,作为NameNode... 阅读全文

posted @ 2017-04-26 09:35 keepgoon 阅读(105) 评论(0) 推荐(0)

随笔分类 - hadoop基础入门系列