02 2013 档案

摘要:在h4节点上安装mysql安装mysql服务端rpm -ivh MySQL-server-5.6.19-1.el6.x86_64.rpm安装mysql客户端rpm -ivh MySQL-client-5.6.19-1.el6.x86_64.rpmMySql忘记密码忘记设置mysql时通过如下方法设置... 阅读全文
posted @ 2013-02-28 22:11 孟尧 阅读(469) 评论(0) 推荐(0)
摘要:1、使用命令方式 进入pom.xml文件所在的目录,使用命令将jar包导出到D盘lib文件夹中(没有-DoutputDirectory则默认导出到当前项目的target/dependency目录中)。 D:\workspace\jee-mars1-x64\crawler>mvn dependen... 阅读全文
posted @ 2013-02-24 00:37 孟尧 阅读(185) 评论(0) 推荐(0)
摘要:Map任务数量由InputSplit决定,InputSplit分片大小默认是HDFS块大小(hadoop1.x=64mb,hadoop2.x是128mb)。例如: MapReduce作业读取HDFS上(hadoop2.x)两个文件,一个是200MB,一个是100MB,这时候就有3个InputSpl... 阅读全文
posted @ 2013-02-13 16:13 孟尧 阅读(748) 评论(0) 推荐(0)
摘要:集群HA模式下的MapReduce代码设置 Configuration conf = HBaseConfiguration.create();conf.set("hbase.zookeeper.quorum", "zk1:2181,zk2:2181,zk3:2181");conf.set("hbas 阅读全文
posted @ 2013-02-11 19:52 孟尧 阅读(227) 评论(0) 推荐(0)
摘要:把输入文件切分成块、由块变成key和value到Mapper类map(k1, v1)的过程 控制输入文件切分、生成key和value传递到Mapper类的map()方法使用(InputFormat,它是一个抽象类,实现则由各个子类完成): 通常在每个MapReduce的Job中,都会调用jo... 阅读全文
posted @ 2013-02-11 15:10 孟尧 阅读(519) 评论(0) 推荐(0)
摘要:1、Mapper类,有setup()、map()、run()、cleanup()这4个方法,如下: setup():在run方法执行前首先被调用,且只调用1次,通常用于初始化。 map():需要重写的方法,此方法中实现业务逻辑。run方法会循环遍历,为每个key、value调用一次这个方法。 run... 阅读全文
posted @ 2013-02-09 08:07 孟尧 阅读(340) 评论(0) 推荐(0)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import java.io.IOException; 6 import java... 阅读全文
posted @ 2013-02-08 23:27 孟尧 阅读(221) 评论(0) 推荐(0)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.net.URI; 5 import java.net.URISyntaxException; 6 import ... 阅读全文
posted @ 2013-02-08 19:45 孟尧 阅读(400) 评论(0) 推荐(0)
摘要:package com.mengyao.hadoop.mapreduce;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.... 阅读全文
posted @ 2013-02-08 16:44 孟尧 阅读(693) 评论(0) 推荐(0)
摘要:package com.mengyao.hadoop.mapreduce;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;i... 阅读全文
posted @ 2013-02-08 12:42 孟尧 阅读(431) 评论(0) 推荐(1)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.text.SimpleDateFormat; 5 import java.util.Date; 6 import... 阅读全文
posted @ 2013-02-07 14:48 孟尧 阅读(340) 评论(0) 推荐(0)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.text.SimpleDateFormat; 5 import java.util.Date; 6 7 im... 阅读全文
posted @ 2013-02-07 10:17 孟尧 阅读(304) 评论(0) 推荐(0)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.util.Iterator; 5 6 import org.apache.hadoop.conf.Config... 阅读全文
posted @ 2013-02-06 23:13 孟尧 阅读(617) 评论(1) 推荐(0)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.util.Iterator; 5 6 import org.apache.hadoop.conf.Config... 阅读全文
posted @ 2013-02-06 15:05 孟尧 阅读(759) 评论(1) 推荐(0)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.... 阅读全文
posted @ 2013-02-06 00:34 孟尧 阅读(891) 评论(1) 推荐(0)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.... 阅读全文
posted @ 2013-02-05 23:17 孟尧 阅读(578) 评论(1) 推荐(0)
摘要:MapReduce有4种Partitioner,如下: HashPartitioner,默认的分区。 计算方法:which reducer = (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks HashPar... 阅读全文
posted @ 2013-02-05 16:31 孟尧 阅读(323) 评论(0) 推荐(0)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import java.io.IOException; 6 import java... 阅读全文
posted @ 2013-02-05 11:21 孟尧 阅读(891) 评论(1) 推荐(0)
摘要:1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.... 阅读全文
posted @ 2013-02-04 19:38 孟尧 阅读(436) 评论(1) 推荐(0)
摘要:如图: 1、客户端提交MapReduce Job到YARN ResourceManager获取新的作业ID。 2、YARN ResourceManager返回给客户端一个应用程序ID,即JobID和存储作业资源的路径。 3、客户端检查作业的输出说明计算输入分片,并将作业的资源即作业Jar包、配置、输... 阅读全文
posted @ 2013-02-04 18:19 孟尧 阅读(608) 评论(0) 推荐(0)
摘要:MapReduce执行步骤如下 1、Mapper任务处理 1.1:读取输入文件内容,将每一行解析成key、value对提供给Mapper类的map函数使用,每个键值对调用一次map函数。 1.2:在Mapper类的map函数中使用自定义的业务逻辑,对输入key、value处理并转换成新的... 阅读全文
posted @ 2013-02-03 21:53 孟尧 阅读(1510) 评论(0) 推荐(0)
摘要:1 SequenceFile可以处理hdfs上大量小文件,它可以作为大量小文件的容器。HDFS和MapReduce是针对大文件优化的,所以通过SequenceFile类型将小文件包装起来可以获得更高效的存储和处理。存储 2 在SequenceFile中的键和值并不一定是Writable类型... 阅读全文
posted @ 2013-02-03 10:41 孟尧 阅读(687) 评论(0) 推荐(0)
摘要:1 package com.mengyao.hadoop.hdfs; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.P... 阅读全文
posted @ 2013-02-03 10:17 孟尧 阅读(403) 评论(1) 推荐(0)
摘要:1 package com.mengyao.hadoop.hdfs; 2 3 import java.io.File; 4 import java.io.IOException; 5 6 import org.apache.commons.io.FileUtils; 7 import org.... 阅读全文
posted @ 2013-02-03 10:06 孟尧 阅读(691) 评论(1) 推荐(0)
摘要:NameNode启动后,会在dfs.namenode.name.dir的值file://${hadoop.tmp.dir/}/dfs/name/本地文件系统下生成in_use.lock文件。该文件存在则为本机已启动NameNode进程。该文件内容是:进程号@主机名。表示已经在本机上启动了某个进程号... 阅读全文
posted @ 2013-02-02 09:57 孟尧 阅读(270) 评论(0) 推荐(0)
摘要:Hadoop包含四个主要模块 Hadoop Common:Hadoop提供了常见的实用程序库,用于支持其他Hadoop模块。 Hadoop Distributed File System,即HDFS:Hadoop的分布式文件系统,它提供了高吞吐量访问应用程序使用的数据。 Hadoop MapRedu... 阅读全文
posted @ 2013-02-01 11:51 孟尧 阅读(270) 评论(0) 推荐(0)