随笔分类 - hadoop学习
摘要:这一节将在《Dockerfile完成Hadoop2.6的伪分布式搭建》的基础上搭建一个完全分布式的Hadoop集群。 1. 搭建集群中需要用到的文件 2. Hadoop的配置文件内容: core-site.xml文件: hdfs-site.xml文件: mapred-site.xml文件: yarn
阅读全文
摘要:在 《Docker中搭建Hadoop-2.6单机伪分布式集群》中在容器中操作来搭建伪分布式的Hadoop集群,这一节中将主要通过Dokcerfile 来完成这项工作。 1 获取一个简单的Docker系统镜像,并建立一个容器。 这里我选择下载CentOS镜像 通过docker tag命令将下载的Cen
阅读全文
摘要:1 获取一个简单的Docker系统镜像,并建立一个容器。 1.1 这里我选择下载CentOS镜像 1.2 通过docker tag命令将下载的CentOS镜像名称换成centos,然后建立一个简单容器 2 Docker容器中下载并安装Java 2.1 JDK下载 去Oracle官网选择要下载的JDK
阅读全文
摘要:一。HIVE streaming 在Hive中,需要实现Hive中的函数无法实现的功能时,就可以用Streaming来实现。其原理可以理解成:用HQL语句之外的语言,如Python、Shell来实现这些功能,同时配合HQL语句,以实现特殊的功能。 二。 实例 1. 日志文件的格式 2. 处理的目的
阅读全文
摘要:1. 日志格式 2. 建立的对应的hive表: 3. flume配置文件
阅读全文
摘要:1. 在使用 Regex Filtering Interceptor的时候一个属性是excludeEvents 当它的值为true 的时候,过滤掉匹配到当前正则表达式的一行 当它的值为false的时候,就接受匹配到正则表达式的一行 2. flume interceptors的其它属性 Flume h
阅读全文
摘要:1. 错误提示 配置文件: 2. 解决方法 链接: http://serverfault.com/questions/690588/flume-error-log-while-using-filechannel 只要把配置文件中的关于channel配置checkpointDir和dataDir目录清
阅读全文
摘要:java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:2367) at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:130) at j...
阅读全文
摘要:1. 错误所在 2. 解决方法 原因的inputCharset属性的默认值UTF-8,但是所读取的日志文件的字符集却是GBK,所以更改一下这个属性值就可以了
阅读全文
摘要:1. 实例描述 单表关联这个实例要求从给出的数据中寻找出所关心的数据,它是对原始数据所包含信息的挖掘。 实例中给出child-parent 表, 求出grandchild-grandparent表。 输入数据 file01: 希望输出为: 2. 设计思路 1. 在map阶段,将原数据进行分割,将pa
阅读全文
摘要:1. 设计思路 在MapReduce过程中自带有排序,可以使用这个默认的排序达到我们的目的。 MapReduce 是按照key值进行排序的,我们在Map过程中将读入的数据转化成IntWritable类型,然后作为Map的key值输出。 Reduce 阶段拿到的就是按照key值排序好的<key,val
阅读全文
摘要:1. 设计思路 去重,重点就是无论某个数据在文件中出现多少次,最后只是输出一次就可以。 根据这一点,我们联想到在reduce阶段数据输入形式是 <key, value list>,只要是key相同的,在shuffle阶段都会聚合在一起,所以只要在map阶段将要去重的数据作为key值就可以达到目的。
阅读全文
摘要:1. 整体环境和设置 1.1 hadoo1.0.4集群部署在4台VMWare虚拟机中,这四台虚拟机都是通过NAT模式连接主机 集群中/etc/hosts文件配置 把上述的配置加入到windows系统中/drives/C/Windows/system32/drivers/etc/hosts的文件中,就
阅读全文