随笔分类 - 大数据技术栈
Hadoop,MapReduce,HDFS等等
摘要:MapReduce自己实现了一套序列化机制,通过实现Writable接口, 重写DateInput和DateOutPut方法,实现数据的序列化和反序列化, 相比于JDK自带的序列化,MapReduce实现的序列化不包含类的继承关系
阅读全文
摘要:1.客户端向ResourceManagement 提交 运行的请求 (hadoop jar xxxx.jar) 2.ResourceManager进行检查,没有问题的时候,向客户端返回一个共享资源的路径以及JobId 3.客户端向HDFS提交资源,将共享资源放入共享路径下:(/tmp/hadoop-
阅读全文
摘要:前提:安装完HDFS以后 1.修改mapred-site.xml 这个文件初始时是没有的,有的是模板文件,mapred-site.xml.template 所以需要拷贝一份,并重命名为mapred-site.xml 然后加上配置信息 <configuration> <property> <!--指定
阅读全文
摘要:/** * @Author: dreamer Q * @Date: 2019/11/4 22:26 * @Version 1.0 * @Discription 使用MapReduce 开发 WordCount应用程序 */ public class WordCount2App{ /** * Map:
阅读全文
摘要:分布式资源调度框架 Yet Another Resource Negotiator YARN 不同框架使用相同的系统资源 YARN的核心组件(架构) ResourceManager RM 整个集群同一时间提供服务的RM只有一个.负责集群资源的统一管理(生产上通常有其他副本节点) 处理客户端的请求 N
阅读全文
摘要:一.环境准备 阿里云ECS(Centos7).已预装JDK8 Hadoop安装包 hadoop-2.7.7.tar.gz 二. 安装步骤 1.确认JDK环境的安装位置 命令 echo $JAVA_HOME 2.解压hadoop-2.7.7.tar.gz 文件夹到指定目录(目录可以自己定义) 命令 t
阅读全文
摘要:文章来源于:https://blog.csdn.net/xuejingfu1/article/details/52554174 文件写入staging(分阶段进行) 一个客户端的创建文件的请求并不直接会送达namenode;实际上,1.最初HDFS客户端会把数据缓存在本地的buffer中,2.应用的
阅读全文
摘要:一,HDFS是什么,HDFS有什么用,HDFS怎么用 HDFS:Hadoop Distribute File System 分布式文件系统 HDFS可以保证文件存储的可靠性, 二.HDFS的设计原则 HDFS的设计目标: 1.存储非常大的文件 通常的值的是G,TB级别的文件 2.采用流式的数据访问方
阅读全文
摘要:一.服务器环境 本人用的是阿里云的ECS的入门机器,配置1核2G,1M带宽,搭了个Hadoop单机环境,供参考 Linux发行版本:Centos7 JDK:阿里云镜像市场中选择JDK8 二.安装步骤 1.从镜像下载Hadoop安装包 这里选择从国内镜像下载,我这里选择是hadoop-2.7.7版本
阅读全文