随笔分类 -  Hadoop

摘要:1.Slave节点要存储数据,所以它的磁盘越大越好。(错误)分析:一旦Slave节点宕机,数据恢复是一个难题2.hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。(错误)分析:hadoop dfsadmin -report 用这个命令可以快速定位出哪些节点down掉了,... 阅读全文
posted @ 2015-10-09 15:25 skyl夜 阅读(559) 评论(0) 推荐(0)
摘要:1.错误日志:Directory /tmp/hadoop-root/dfs/name is in an inconsistent state: storage directory does not exist or is not accessible. 错误原因:在Linux下Hadoop等的各种... 阅读全文
posted @ 2015-10-04 21:38 skyl夜 阅读(3936) 评论(0) 推荐(0)
摘要:1.安装mvn(可以省略,因为eclipse自带maven插件) 1.1. 上传安装包到linux 1.2. 解压maven安装包mkdir /usr/maventar -zxvf apache-maven-3.2.1-bin.tar.gz -C /usr/maven 1.3添加maven到环... 阅读全文
posted @ 2015-10-04 17:24 skyl夜 阅读(1284) 评论(0) 推荐(0)
摘要:#新增节点1.安装lunix,和以前一样的版本 2.初始化系统环境 2.1.设置静态ipvi /etc/sysconfig/network-scripts/ifcfg-eth0//增加 #Advanced Micro Devices [AMD] 79c970 [PCnet32 LANCE]DEVI... 阅读全文
posted @ 2015-10-04 16:02 skyl夜 阅读(5181) 评论(0) 推荐(0)
摘要:zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg。其中各配置项的含义,解释如下:1.tickTime:Client-Server通信心跳时间Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 ti... 阅读全文
posted @ 2015-10-04 14:51 skyl夜 阅读(23144) 评论(0) 推荐(1)
摘要:注意:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系######注意#####... 阅读全文
posted @ 2015-10-04 14:44 skyl夜 阅读(558) 评论(0) 推荐(0)
摘要:1.处理hadoop的namenode宕机 处理措施:进入hadoop的bin目录,重启namenode服务 操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start namenode2.处理hadoop的jobtacker宕机 处理措施:进... 阅读全文
posted @ 2015-09-26 17:02 skyl夜 阅读(441) 评论(0) 推荐(0)
摘要:1.Jvm重用JVM重用不是指同一Job的两个或两个以上的Task同时运行于同一JVM上,而是 N个Task按顺序在同一个Jvm上运行,即省去了Jvm关闭和再重启的时间。N值可以在Hadoop的mapre-site.xml文件mapreduce.job.jvm.numtasks(默认1)属性进行设置... 阅读全文
posted @ 2015-09-07 15:20 skyl夜 阅读(2132) 评论(0) 推荐(1)
摘要:hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业。调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:1.基于队列的FIFO(先进先出) hadoop默认的资源调度器。优点:简单明了。缺点:忽略了不同作业的需求差异。2.计算... 阅读全文
posted @ 2015-09-06 15:16 skyl夜 阅读(3485) 评论(0) 推荐(0)
摘要:字段解释: product_no:用户手机号; lac_id:用户所在基站; start_time:用户在此基站的开始时间; staytime:用户在此基站的逗留时间。product_no lac_id moment start_time user_id county_id staytime cit... 阅读全文
posted @ 2015-09-03 14:15 skyl夜 阅读(1061) 评论(0) 推荐(0)
摘要:请参照wordcount实现一个自己的MapReduce,需求为: a. 输入文件格式: xxx,xxx,xxx,xxx,xxx,xxx,xxx b. 输出文件格式: xxx,20 xxx,30 xxx.40 c. 功能:根据命令行参数统计输入文件中指定关键字出现的次数,并展示... 阅读全文
posted @ 2015-09-02 21:47 skyl夜 阅读(1391) 评论(0) 推荐(0)
摘要:让你真正明白什么是MapReduce组合式,迭代式,链式 阅读全文
posted @ 2015-08-31 17:55 skyl夜 阅读(269) 评论(0) 推荐(0)
摘要:SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SequenceFile文件中,每一个key-value对被看做是一条记录(Record),基于Record的压缩策略,SequenceFile文件支持三种压缩类型:NON... 阅读全文
posted @ 2015-08-29 18:44 skyl夜 阅读(4190) 评论(0) 推荐(1)
摘要:SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将对序列化到文件中。可以使用这种文件对小文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式有以下好处:1). 支持压缩,且可定制为基于Record或Block压缩(Block级压... 阅读全文
posted @ 2015-08-29 18:35 skyl夜 阅读(1645) 评论(0) 推荐(0)
摘要:在MapReduce中使用lzo压缩 1).首先将数据文件在本地使用lzop命令压缩。具体配置过详见配置hadoop集群的lzo压缩//压缩lzop,解压缩lzop -d[root@ncst word]# lzop words.txt [root@ncst word]# lswords.txt w... 阅读全文
posted @ 2015-08-28 13:48 skyl夜 阅读(3250) 评论(0) 推荐(0)
摘要:MR-Job中使用lzop详见MR案例:Job中使用Lzo压缩1). 配置前的环境准备# yum -y install lzo-devel zlib-devel gcc autoconf automakelibtool2). (all) 在集群的所有节点上安装Lzo库 下载、解压,然后编译。并将... 阅读全文
posted @ 2015-08-27 18:25 skyl夜 阅读(1711) 评论(0) 推荐(0)
摘要:Hadoop中用得比较多的4种压缩格式:lzo,gzip,snappy,bzip2。它们的优缺点和应用场景如下:1). gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linu... 阅读全文
posted @ 2015-08-27 15:37 skyl夜 阅读(692) 评论(0) 推荐(0)
摘要:输入格式类InputFormat用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查)、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map输入的键值对。getSplits()方法返回List集合,作用是将输入文件在逻辑上划分为多个输入分片,每个分片的数据... 阅读全文
posted @ 2015-08-27 13:52 skyl夜 阅读(758) 评论(0) 推荐(1)
摘要:此文承接Job流程:Mapper类分析.MapReduce为确保每个reducer的输入都按键排序,数据从map输出到reducer输入的这段过程成为Shuffle。map端1).Spill溢写. 每个map()方法都将处理结果输出到一个环形内存缓冲区buf(100MB)中(mapreduce.ta... 阅读全文
posted @ 2015-08-27 11:48 skyl夜 阅读(741) 评论(0) 推荐(0)
摘要:此文紧接Job流程:决定map个数的因素,Map任务被提交到Yarn后,被ApplicationMaster启动,任务的形式是YarnChild进程,在其中会执行MapTask的run()方法。无论是MapTask还是ReduceTask都是继承的Task这个抽象类。1). Mapper类中 set... 阅读全文
posted @ 2015-08-27 11:03 skyl夜 阅读(457) 评论(0) 推荐(0)