2013 年 2月随笔档案 - 孟尧

在其他机器上安装mysql和hive后设置hive元数据存储为mysql

摘要：在h4节点上安装mysql安装mysql服务端rpm -ivh MySQL-server-5.6.19-1.el6.x86_64.rpm安装mysql客户端rpm -ivh MySQL-client-5.6.19-1.el6.x86_64.rpmMySql忘记密码忘记设置mysql时通过如下方法设置... 阅读全文

posted @ 2013-02-28 22:11 孟尧阅读(469) 评论(0) 推荐(0)

导出Maven依赖包

摘要：1、使用命令方式进入pom.xml文件所在的目录，使用命令将jar包导出到D盘lib文件夹中（没有-DoutputDirectory则默认导出到当前项目的target/dependency目录中）。 D:\workspace\jee-mars1-x64\crawler>mvn dependen... 阅读全文

posted @ 2013-02-24 00:37 孟尧阅读(185) 评论(0) 推荐(0)

MapReduce的性能调优-配置调优

摘要：Map任务数量由InputSplit决定，InputSplit分片大小默认是HDFS块大小（hadoop1.x=64mb，hadoop2.x是128mb）。例如： MapReduce作业读取HDFS上（hadoop2.x）两个文件，一个是200MB，一个是100MB，这时候就有3个InputSpl... 阅读全文

posted @ 2013-02-13 16:13 孟尧阅读(748) 评论(0) 推荐(0)

MapReduce-集群HA模式配置

摘要：集群HA模式下的MapReduce代码设置 Configuration conf = HBaseConfiguration.create();conf.set("hbase.zookeeper.quorum", "zk1:2181,zk2:2181,zk3:2181");conf.set("hbas 阅读全文

posted @ 2013-02-11 19:52 孟尧阅读(227) 评论(0) 推荐(0)

MapReduce作业-切片和Shuffle

摘要：把输入文件切分成块、由块变成key和value到Mapper类map(k1, v1)的过程控制输入文件切分、生成key和value传递到Mapper类的map()方法使用（InputFormat，它是一个抽象类，实现则由各个子类完成）：通常在每个MapReduce的Job中，都会调用jo... 阅读全文

posted @ 2013-02-11 15:10 孟尧阅读(519) 评论(0) 推荐(0)

MapReduce源码-Mapper和Reducer

摘要：1、Mapper类，有setup()、map()、run()、cleanup()这4个方法，如下： setup():在run方法执行前首先被调用，且只调用1次，通常用于初始化。 map():需要重写的方法，此方法中实现业务逻辑。run方法会循环遍历，为每个key、value调用一次这个方法。 run... 阅读全文

posted @ 2013-02-09 08:07 孟尧阅读(340) 评论(0) 推荐(0)

MapReduce的自定义排序

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import java.io.IOException; 6 import java... 阅读全文

posted @ 2013-02-08 23:27 孟尧阅读(221) 评论(0) 推荐(0)

MapReduce的自定义结果文件名OutputFormat

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.net.URI; 5 import java.net.URISyntaxException; 6 import ... 阅读全文

posted @ 2013-02-08 19:45 孟尧阅读(400) 评论(0) 推荐(0)

MapReduce的SequenceFileOutputFormat使用

摘要：package com.mengyao.hadoop.mapreduce;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.... 阅读全文

posted @ 2013-02-08 16:44 孟尧阅读(693) 评论(0) 推荐(0)

MapReduce的DBOutputFormat使用

摘要：package com.mengyao.hadoop.mapreduce;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;i... 阅读全文

posted @ 2013-02-08 12:42 孟尧阅读(431) 评论(0) 推荐(1)

MapReduce的Mapper端JOIN

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.text.SimpleDateFormat; 5 import java.util.Date; 6 import... 阅读全文

posted @ 2013-02-07 14:48 孟尧阅读(340) 评论(0) 推荐(0)

MapReduce的自定义分组

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.text.SimpleDateFormat; 5 import java.util.Date; 6 7 im... 阅读全文

posted @ 2013-02-07 10:17 孟尧阅读(304) 评论(0) 推荐(0)

MapReduce的CombineFileInputFormat使用

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.util.Iterator; 5 6 import org.apache.hadoop.conf.Config... 阅读全文

posted @ 2013-02-06 23:13 孟尧阅读(617) 评论(1) 推荐(0)

MapReduce的SequenceFileInputFormat使用

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 import java.util.Iterator; 5 6 import org.apache.hadoop.conf.Config... 阅读全文

posted @ 2013-02-06 15:05 孟尧阅读(759) 评论(1) 推荐(0)

MapReduce的NLineInputFormat使用

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.... 阅读全文

posted @ 2013-02-06 00:34 孟尧阅读(891) 评论(1) 推荐(0)

MapReduce的KeyValueTextInputFormat使用

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.... 阅读全文

posted @ 2013-02-05 23:17 孟尧阅读(578) 评论(1) 推荐(0)

MapReduce的自定义分区

摘要：MapReduce有4种Partitioner，如下： HashPartitioner，默认的分区。计算方法：which reducer = (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks HashPar... 阅读全文

posted @ 2013-02-05 16:31 孟尧阅读(323) 评论(0) 推荐(0)

MapReduce的DBInputFormat使用

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import java.io.IOException; 6 import java... 阅读全文

posted @ 2013-02-05 11:21 孟尧阅读(891) 评论(1) 推荐(0)

MapReduce的WordCount

摘要：1 package com.mengyao.hadoop.mapreduce; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.... 阅读全文

posted @ 2013-02-04 19:38 孟尧阅读(436) 评论(1) 推荐(0)

hadoop使用yarn运行mapreduce的过程

摘要：如图： 1、客户端提交MapReduce Job到YARN ResourceManager获取新的作业ID。 2、YARN ResourceManager返回给客户端一个应用程序ID，即JobID和存储作业资源的路径。 3、客户端检查作业的输出说明计算输入分片，并将作业的资源即作业Jar包、配置、输... 阅读全文

posted @ 2013-02-04 18:19 孟尧阅读(608) 评论(0) 推荐(0)

MapReduce工作流程详解

摘要：MapReduce执行步骤如下 1、Mapper任务处理 1.1：读取输入文件内容，将每一行解析成key、value对提供给Mapper类的map函数使用，每个键值对调用一次map函数。 1.2：在Mapper类的map函数中使用自定义的业务逻辑，对输入key、value处理并转换成新的... 阅读全文

posted @ 2013-02-03 21:53 孟尧阅读(1510) 评论(0) 推荐(0)

Hadoop的SequenceFile读写实例

摘要：1 SequenceFile可以处理hdfs上大量小文件，它可以作为大量小文件的容器。HDFS和MapReduce是针对大文件优化的，所以通过SequenceFile类型将小文件包装起来可以获得更高效的存储和处理。存储 2 在SequenceFile中的键和值并不一定是Writable类型... 阅读全文

posted @ 2013-02-03 10:41 孟尧阅读(687) 评论(0) 推荐(0)

Hadoop的SequenceFile读实例

摘要：1 package com.mengyao.hadoop.hdfs; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.P... 阅读全文

posted @ 2013-02-03 10:17 孟尧阅读(403) 评论(1) 推荐(0)

Hadoop的SequenceFile写实例

摘要：1 package com.mengyao.hadoop.hdfs; 2 3 import java.io.File; 4 import java.io.IOException; 5 6 import org.apache.commons.io.FileUtils; 7 import org.... 阅读全文

posted @ 2013-02-03 10:06 孟尧阅读(691) 评论(1) 推荐(0)

HDFS NameNode与DataNode介绍

摘要：NameNode启动后，会在dfs.namenode.name.dir的值file://${hadoop.tmp.dir/}/dfs/name/本地文件系统下生成in_use.lock文件。该文件存在则为本机已启动NameNode进程。该文件内容是：进程号@主机名。表示已经在本机上启动了某个进程号... 阅读全文

posted @ 2013-02-02 09:57 孟尧阅读(270) 评论(0) 推荐(0)

Hadoop简介

摘要：Hadoop包含四个主要模块 Hadoop Common：Hadoop提供了常见的实用程序库，用于支持其他Hadoop模块。 Hadoop Distributed File System，即HDFS：Hadoop的分布式文件系统，它提供了高吞吐量访问应用程序使用的数据。 Hadoop MapRedu... 阅读全文

posted @ 2013-02-01 11:51 孟尧阅读(270) 评论(0) 推荐(0)

孟尧

前途宽广，贵在坚持

02 2013 档案

公告