随笔分类 - Hello Hadoop
Hadoop入门文章
摘要:YARN简介 一、YARN是什么 YARN不是facebook的那个yarn,它从Hadoop 2引入,最初目的是改善MapReduce的实现,但是因为具备足够通用性,同样也可以支持其他的分布式计算模式。YARN全称是Yet Another Resource Negotiator,翻译过来是另一种资
阅读全文
摘要:安装一个Hadoop分布式集群 最小化的Hadoop已经可以满足学习过程中大部分需求,但是为了研究Hadoop集群运行机制,部署一个类生产的环境还是有必要的。因为集群机器比较少,笔者没有配置ssh,所以就需要在每一台机器上手动启动服务。启动上相对繁琐一些,优点是可以高度自定义集群中的任务节点数量,从
阅读全文
摘要:HDFS简介 一、什么是HDFS HDFS全称是Hadoop Distributed File System,简称HDFS。这是一个分布式文件系统,当数据规模大小超过一台物理计算机的存储能力时,就有必要进行分区并存储到若干台物理计算机上。管理网络中跨多台计算机的文件系统称为分布式文件系统。 Hado
阅读全文
摘要:初识MapReduce 一、什么是MapReduce MapReduce是一种编程范式,它借助Map将一个大任务分解成多个小任务,再借助Reduce归并Map的结果。MapReduce虽然原理很简单,但是使用MapReduce设计出一个解决问题的应用却不是一件简单的事情。下面通过一个简单的小例子来介
阅读全文
摘要:安装一个最小化的Hadoop 为了学习HDFS和之后的MapReduce,我们需要安装一个Hadoop。 Hadoop一共有3种运行模式 独立模式:不启动守护进程,所有程序运行在一个JVM进程中。独立模式运行Hadoop很方便,适合学习和开发阶段 伪分布式:Hadoop运行在本机上,模拟一个小规模集
阅读全文
摘要:前言 一、为什么要写这个 今年是我做工程师的第6个年头,回顾这6年虽然接触了不少东西,也学到了不少知识。但是实际上沉淀下来的东西很少。有时候回想起来,要说什么东西不会嘛,会的东西其实也不少(起码CURD灰常熟练)。但是要说什么都会,但是也没有系统的总结过。 最近闲来无事,在翻看《Hadoop 权威指
阅读全文