02 2013 档案
摘要:在h4节点上安装mysql安装mysql服务端rpm -ivh MySQL-server-5.6.19-1.el6.x86_64.rpm安装mysql客户端rpm -ivh MySQL-client-5.6.19-1.el6.x86_64.rpmMySql忘记密码忘记设置mysql时通过如下方法设置...
阅读全文
摘要:1、使用命令方式 进入pom.xml文件所在的目录,使用命令将jar包导出到D盘lib文件夹中(没有-DoutputDirectory则默认导出到当前项目的target/dependency目录中)。 D:\workspace\jee-mars1-x64\crawler>mvn dependen...
阅读全文
摘要:Map任务数量由InputSplit决定,InputSplit分片大小默认是HDFS块大小(hadoop1.x=64mb,hadoop2.x是128mb)。例如: MapReduce作业读取HDFS上(hadoop2.x)两个文件,一个是200MB,一个是100MB,这时候就有3个InputSpl...
阅读全文
摘要:集群HA模式下的MapReduce代码设置 Configuration conf = HBaseConfiguration.create();conf.set("hbase.zookeeper.quorum", "zk1:2181,zk2:2181,zk3:2181");conf.set("hbas
阅读全文
摘要:把输入文件切分成块、由块变成key和value到Mapper类map(k1, v1)的过程 控制输入文件切分、生成key和value传递到Mapper类的map()方法使用(InputFormat,它是一个抽象类,实现则由各个子类完成): 通常在每个MapReduce的Job中,都会调用jo...
阅读全文
摘要:1、Mapper类,有setup()、map()、run()、cleanup()这4个方法,如下: setup():在run方法执行前首先被调用,且只调用1次,通常用于初始化。 map():需要重写的方法,此方法中实现业务逻辑。run方法会循环遍历,为每个key、value调用一次这个方法。 run...
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import java.io.IOException; 6 import java...
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.net.URI; 5 import java.net.URISyntaxException; 6 import ...
阅读全文
摘要:package com.mengyao.hadoop.mapreduce;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf....
阅读全文
摘要:package com.mengyao.hadoop.mapreduce;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;i...
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.text.SimpleDateFormat; 5 import java.util.Date; 6 import...
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.text.SimpleDateFormat; 5 import java.util.Date; 6 7 im...
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.util.Iterator; 5 6 import org.apache.hadoop.conf.Config...
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.util.Iterator; 5 6 import org.apache.hadoop.conf.Config...
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache....
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache....
阅读全文
摘要:MapReduce有4种Partitioner,如下: HashPartitioner,默认的分区。 计算方法:which reducer = (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks HashPar...
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import java.io.IOException; 6 import java...
阅读全文
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache....
阅读全文
摘要:如图: 1、客户端提交MapReduce Job到YARN ResourceManager获取新的作业ID。 2、YARN ResourceManager返回给客户端一个应用程序ID,即JobID和存储作业资源的路径。 3、客户端检查作业的输出说明计算输入分片,并将作业的资源即作业Jar包、配置、输...
阅读全文
摘要:MapReduce执行步骤如下 1、Mapper任务处理 1.1:读取输入文件内容,将每一行解析成key、value对提供给Mapper类的map函数使用,每个键值对调用一次map函数。 1.2:在Mapper类的map函数中使用自定义的业务逻辑,对输入key、value处理并转换成新的...
阅读全文
摘要:1 SequenceFile可以处理hdfs上大量小文件,它可以作为大量小文件的容器。HDFS和MapReduce是针对大文件优化的,所以通过SequenceFile类型将小文件包装起来可以获得更高效的存储和处理。存储 2 在SequenceFile中的键和值并不一定是Writable类型...
阅读全文
摘要:1 package com.mengyao.hadoop.hdfs; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.P...
阅读全文
摘要:1 package com.mengyao.hadoop.hdfs; 2 3 import java.io.File; 4 import java.io.IOException; 5 6 import org.apache.commons.io.FileUtils; 7 import org....
阅读全文
摘要:NameNode启动后,会在dfs.namenode.name.dir的值file://${hadoop.tmp.dir/}/dfs/name/本地文件系统下生成in_use.lock文件。该文件存在则为本机已启动NameNode进程。该文件内容是:进程号@主机名。表示已经在本机上启动了某个进程号...
阅读全文
摘要:Hadoop包含四个主要模块 Hadoop Common:Hadoop提供了常见的实用程序库,用于支持其他Hadoop模块。 Hadoop Distributed File System,即HDFS:Hadoop的分布式文件系统,它提供了高吞吐量访问应用程序使用的数据。 Hadoop MapRedu...
阅读全文