随笔分类 - hadoop
摘要:Hadoop将很多Writable类归入org.apache.hadoop.io包中,在这些类中,比较重要的有Java基本类、Text、Writable集合、ObjectWritable等,重点介绍Java基本类 1. Java基本类型的Writable封装 目前Java基本类型对应的Writabl
阅读全文
摘要:继上一个模块之后,此次分析的内容是来到了Hadoop IO相关的模块了,IO系统的模块可谓是一个比较大的模块,在Hadoop Common中的io,主要包括2个大的子模块构成,1个是以Writable接口为主的序列化模块,还有1个是解压缩模块,所以打算分成2个模块做分析,今天来说说序列化,反序列化的
阅读全文
摘要:昨天在学习Hadoop的时候,遇到一个问题就是Java关联Hadoop源码的时候死活关联不上,但是我发现在公司的电脑就可以顺利关联到源码。考虑了一下觉得应该是Eclipse版本的问题,于是我下载了eclipse-jee-mars-2-win32-x86_64.zip这个版本的JEE版本(如果大家不知
阅读全文
摘要:hdfs命令行 (1)查看帮助 hdfs dfs -help (2)查看当前目录信息 hdfs dfs -ls / (3)上传文件 hdfs dfs -put /本地路径 /hdfs路径 (4)剪切文件 hdfs dfs -moveFromLocal a.txt /aa.txt (5)下载文件到本地 hdfs dfs -get /hdfs路径 /本地路径 (6)合并下载 hdfs dfs -get
阅读全文
摘要:本文原创,如需转载,请注明原文链接和作者 所用到的命令的总结: yarn:启动start-yarn.sh 停止stop-yarn.sh zk :zkServer.start ;:zkServer.stop; 启动hdfs : start-dfs.sh 停止:stop-dfs.sh 当然可以需要在zk
阅读全文
摘要:一、MapReduce1.0的数据分割到数据计算的过程 MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数 nput Input但是输入文件的存储位置, ,它也可以是本机上的文件位置。我们来仔细分析下
阅读全文
摘要:本文原创,转载请注明作者及原文链接 高可用集群的搭建: 几个集群的启动顺序问题: 1、先启动zookeeper >zkServer.sh start 2、启动journalNodes集群 >hadoop-daemon.sh start journalnode 3 也就是主结点nameNode的纵向扩
阅读全文
摘要:Hadoop介绍——HA与联邦 0.1682019.06.04 13:30:55字数 820阅读 138 0.1682019.06.04 13:30:55字数 820阅读 138 Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题: –HDFS存在的问题 •NameNo
阅读全文
摘要:本文原创,如需转载,请注明作者以及原文链接! 一、前期准备: 1、jdk安装 不要用centos7自带的openJDK2、hostname 配置 配置位置:/etc/sysconfig/network文件3、hosts 配置 配置位置 : /etc/hosts4、date 配置 date -s ".
阅读全文
摘要:一、Hadoop集群参数配置 在hadoop集群中,需要配置的文件主要包括四个,分别是core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml,这四个文件分别是对不同组件的配置参数,具体如下: core-site.xml,集群全局参数。用于定
阅读全文
摘要:本文原创,如需转载,请注明作者和原文链接 1、集群搭建的前期准备 见 搭建分布式hadoop环境的前期准备 需要检查的几个点 2、解压tar.gz包 3、HADOOP_HOME环境变量的配置 结果如图 配置完毕之后,要重新的去读取一下这个文件 4、java环境变量配置文件的配置 转到目录,注意点:h
阅读全文
摘要:前期准备: jdkhostnamehostsdate安全机制firewallwindows 域名映射 具体的操作见下面 1、看看自己是否已经配置了别名了(linux别名的配置可以参考博文:自己centos7成功的修改了主机名(记录了该改哪些文件)) 2、看看防火墙是否关闭了 CentOS 7.0默认
阅读全文
摘要:本文原创,转载注明作者和原文链接! 一:总结注意点: 到现在为止学习到的角色:三个NameNode、SecondaryNameNode、DataNode 1.存储的是每一个文件分割存储之后的元数据信息。具体的信息有: 2.而且NameNode的存储是内存存储的,不会有和磁盘的数据交换的过程,这样的话
阅读全文
摘要:优点 其中的10k+,指的是每一个块必须>=1M 缺点 低延迟:是指hadoop处理数据都是以分钟为单位的,而不像storm那样的是以毫秒级为单位的。 高吞吐率:是指你分布式存储的文件块的大小必须最小是1M,不能再小了。 小文件存取的问题:如2亿的文件,虽然规模很大,但是每一个文件都很小,这样的话每
阅读全文
摘要:写流程:怎么将文件切割成块,上传到服务器 读流程:怎么从不同的服务器来读取数据块 写流程 图一 图二 写的过程中:NameNode会给块分配存储块的位置,每次想要存储文件的时候都会在NameNode创建一个path,之后HDFSClient读取和写入数据都是先访问这个NameNode中的path去找
阅读全文
摘要:下面的这种是针对于塔式服务器的副本的放置策略
阅读全文
摘要:其中的fsimage 称为时点备份,又叫磁盘镜像快照,这个是NameNode的一个 持久化的方式之一:缺点,在内存数据序列化的时候比较慢 具体的过程:因为我们所知道的NameNode一般是存储在内存中的,并没有和磁盘进行交互,这和redis这类的非关系型数据库差不多,但是内存中的数据总是没有持久化的
阅读全文