hadoop学习 - 随笔分类 - Amei1314

Docker中自动化搭建Hadoop2.6完全分布式集群

摘要：这一节将在《Dockerfile完成Hadoop2.6的伪分布式搭建》的基础上搭建一个完全分布式的Hadoop集群。 1. 搭建集群中需要用到的文件 2. Hadoop的配置文件内容： core-site.xml文件： hdfs-site.xml文件： mapred-site.xml文件： yarn 阅读全文

posted @ 2016-08-12 21:06 Amei1314 阅读(4713) 评论(2) 推荐(0)

Dockerfile完成Hadoop2.6的伪分布式搭建

摘要：在《Docker中搭建Hadoop-2.6单机伪分布式集群》中在容器中操作来搭建伪分布式的Hadoop集群，这一节中将主要通过Dokcerfile 来完成这项工作。 1 获取一个简单的Docker系统镜像,并建立一个容器。这里我选择下载CentOS镜像通过docker tag命令将下载的Cen 阅读全文

posted @ 2016-08-06 23:30 Amei1314 阅读(3243) 评论(1) 推荐(0)

Docker中搭建Hadoop-2.6单机伪分布式集群

摘要：1 获取一个简单的Docker系统镜像,并建立一个容器。 1.1 这里我选择下载CentOS镜像 1.2 通过docker tag命令将下载的CentOS镜像名称换成centos，然后建立一个简单容器 2 Docker容器中下载并安装Java 2.1 JDK下载去Oracle官网选择要下载的JDK 阅读全文

posted @ 2016-08-04 23:09 Amei1314 阅读(4223) 评论(0) 推荐(0)

hive streaming 使用shell脚本

摘要：一。HIVE streaming 在Hive中，需要实现Hive中的函数无法实现的功能时，就可以用Streaming来实现。其原理可以理解成：用HQL语句之外的语言，如Python、Shell来实现这些功能，同时配合HQL语句，以实现特殊的功能。二。实例 1. 日志文件的格式 2. 处理的目的阅读全文

posted @ 2016-05-07 13:15 Amei1314 阅读(663) 评论(0) 推荐(0)

简单的Flume和hive的结合

摘要：1. 日志格式 2. 建立的对应的hive表： 3. flume配置文件阅读全文

posted @ 2016-05-03 11:03 Amei1314 阅读(1590) 评论(0) 推荐(0)

Flume interceptor 使用注意事项

摘要：1. 在使用 Regex Filtering Interceptor的时候一个属性是excludeEvents 当它的值为true 的时候，过滤掉匹配到当前正则表达式的一行当它的值为false的时候，就接受匹配到正则表达式的一行 2. flume interceptors的其它属性 Flume h 阅读全文

posted @ 2016-05-01 10:25 Amei1314 阅读(2527) 评论(0) 推荐(0)

flume file channel 异常解决

摘要：1. 错误提示配置文件： 2. 解决方法链接： http://serverfault.com/questions/690588/flume-error-log-while-using-filechannel 只要把配置文件中的关于channel配置checkpointDir和dataDir目录清阅读全文

posted @ 2016-04-26 17:14 Amei1314 阅读(7509) 评论(0) 推荐(0)

Flume内存溢出错误

摘要：java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:2367) at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:130) at j... 阅读全文

posted @ 2016-04-26 16:25 Amei1314 阅读(2723) 评论(0) 推荐(0)

flume 使用 spool source的时候字符集出错

摘要：1. 错误所在 2. 解决方法原因的inputCharset属性的默认值UTF-8,但是所读取的日志文件的字符集却是GBK,所以更改一下这个属性值就可以了阅读全文

posted @ 2016-04-26 13:43 Amei1314 阅读(4047) 评论(0) 推荐(0)

MapReduce应用案例--单表关联

摘要：1. 实例描述单表关联这个实例要求从给出的数据中寻找出所关心的数据，它是对原始数据所包含信息的挖掘。实例中给出child-parent 表，求出grandchild-grandparent表。输入数据 file01: 希望输出为: 2. 设计思路 1. 在map阶段，将原数据进行分割，将pa 阅读全文

posted @ 2016-04-11 15:38 Amei1314 阅读(2108) 评论(0) 推荐(0)

MapReduce应用案例--简单排序

摘要：1. 设计思路在MapReduce过程中自带有排序，可以使用这个默认的排序达到我们的目的。 MapReduce 是按照key值进行排序的，我们在Map过程中将读入的数据转化成IntWritable类型，然后作为Map的key值输出。 Reduce 阶段拿到的就是按照key值排序好的<key,val 阅读全文

posted @ 2016-04-11 10:13 Amei1314 阅读(671) 评论(0) 推荐(0)

MapReduce应用案例--简单的数据去重

摘要：1. 设计思路去重，重点就是无论某个数据在文件中出现多少次，最后只是输出一次就可以。根据这一点，我们联想到在reduce阶段数据输入形式是 <key, value list>,只要是key相同的，在shuffle阶段都会聚合在一起，所以只要在map阶段将要去重的数据作为key值就可以达到目的。阅读全文

posted @ 2016-04-11 09:55 Amei1314 阅读(849) 评论(0) 推荐(0)

在windows环境中用eclipse搭建hadoop开发环境

摘要：1. 整体环境和设置 1.1 hadoo1.0.4集群部署在4台VMWare虚拟机中，这四台虚拟机都是通过NAT模式连接主机集群中/etc/hosts文件配置把上述的配置加入到windows系统中/drives/C/Windows/system32/drivers/etc/hosts的文件中，就阅读全文

posted @ 2016-04-08 16:44 Amei1314 阅读(510) 评论(0) 推荐(0)

Amei6536

随笔分类 - hadoop学习

公告