随笔分类 -  hadoop学习

摘要:这一节将在《Dockerfile完成Hadoop2.6的伪分布式搭建》的基础上搭建一个完全分布式的Hadoop集群。 1. 搭建集群中需要用到的文件 2. Hadoop的配置文件内容: core-site.xml文件: hdfs-site.xml文件: mapred-site.xml文件: yarn 阅读全文
posted @ 2016-08-12 21:06 Amei1314 阅读(4685) 评论(2) 推荐(0) 编辑
摘要:在 《Docker中搭建Hadoop-2.6单机伪分布式集群》中在容器中操作来搭建伪分布式的Hadoop集群,这一节中将主要通过Dokcerfile 来完成这项工作。 1 获取一个简单的Docker系统镜像,并建立一个容器。 这里我选择下载CentOS镜像 通过docker tag命令将下载的Cen 阅读全文
posted @ 2016-08-06 23:30 Amei1314 阅读(3214) 评论(1) 推荐(0) 编辑
摘要:1 获取一个简单的Docker系统镜像,并建立一个容器。 1.1 这里我选择下载CentOS镜像 1.2 通过docker tag命令将下载的CentOS镜像名称换成centos,然后建立一个简单容器 2 Docker容器中下载并安装Java 2.1 JDK下载 去Oracle官网选择要下载的JDK 阅读全文
posted @ 2016-08-04 23:09 Amei1314 阅读(4181) 评论(0) 推荐(0) 编辑
摘要:一。HIVE streaming 在Hive中,需要实现Hive中的函数无法实现的功能时,就可以用Streaming来实现。其原理可以理解成:用HQL语句之外的语言,如Python、Shell来实现这些功能,同时配合HQL语句,以实现特殊的功能。 二。 实例 1. 日志文件的格式 2. 处理的目的 阅读全文
posted @ 2016-05-07 13:15 Amei1314 阅读(653) 评论(0) 推荐(0) 编辑
摘要:1. 日志格式 2. 建立的对应的hive表: 3. flume配置文件 阅读全文
posted @ 2016-05-03 11:03 Amei1314 阅读(1581) 评论(0) 推荐(0) 编辑
摘要:1. 在使用 Regex Filtering Interceptor的时候一个属性是excludeEvents 当它的值为true 的时候,过滤掉匹配到当前正则表达式的一行 当它的值为false的时候,就接受匹配到正则表达式的一行 2. flume interceptors的其它属性 Flume h 阅读全文
posted @ 2016-05-01 10:25 Amei1314 阅读(2489) 评论(0) 推荐(0) 编辑
摘要:1. 错误提示 配置文件: 2. 解决方法 链接: http://serverfault.com/questions/690588/flume-error-log-while-using-filechannel 只要把配置文件中的关于channel配置checkpointDir和dataDir目录清 阅读全文
posted @ 2016-04-26 17:14 Amei1314 阅读(7413) 评论(0) 推荐(0) 编辑
摘要:java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:2367) at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:130) at j... 阅读全文
posted @ 2016-04-26 16:25 Amei1314 阅读(2711) 评论(0) 推荐(0) 编辑
摘要:1. 错误所在 2. 解决方法 原因的inputCharset属性的默认值UTF-8,但是所读取的日志文件的字符集却是GBK,所以更改一下这个属性值就可以了 阅读全文
posted @ 2016-04-26 13:43 Amei1314 阅读(4008) 评论(0) 推荐(0) 编辑
摘要:1. 实例描述 单表关联这个实例要求从给出的数据中寻找出所关心的数据,它是对原始数据所包含信息的挖掘。 实例中给出child-parent 表, 求出grandchild-grandparent表。 输入数据 file01: 希望输出为: 2. 设计思路 1. 在map阶段,将原数据进行分割,将pa 阅读全文
posted @ 2016-04-11 15:38 Amei1314 阅读(2095) 评论(0) 推荐(0) 编辑
摘要:1. 设计思路 在MapReduce过程中自带有排序,可以使用这个默认的排序达到我们的目的。 MapReduce 是按照key值进行排序的,我们在Map过程中将读入的数据转化成IntWritable类型,然后作为Map的key值输出。 Reduce 阶段拿到的就是按照key值排序好的<key,val 阅读全文
posted @ 2016-04-11 10:13 Amei1314 阅读(657) 评论(0) 推荐(0) 编辑
摘要:1. 设计思路 去重,重点就是无论某个数据在文件中出现多少次,最后只是输出一次就可以。 根据这一点,我们联想到在reduce阶段数据输入形式是 <key, value list>,只要是key相同的,在shuffle阶段都会聚合在一起,所以只要在map阶段将要去重的数据作为key值就可以达到目的。 阅读全文
posted @ 2016-04-11 09:55 Amei1314 阅读(811) 评论(0) 推荐(0) 编辑
摘要:1. 整体环境和设置 1.1 hadoo1.0.4集群部署在4台VMWare虚拟机中,这四台虚拟机都是通过NAT模式连接主机 集群中/etc/hosts文件配置 把上述的配置加入到windows系统中/drives/C/Windows/system32/drivers/etc/hosts的文件中,就 阅读全文
posted @ 2016-04-08 16:44 Amei1314 阅读(484) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示