Hadoop - 文章分类 - 午后的猫

Hadoop，MapReduce学习步骤

摘要：转自：http://prinx.blog.163.com/blog/static/190115275201211128513868/以下是我看过的最有价值的资料，收录在Core文件夹内，按如下顺序看效果最佳:MapReduce Simplied Data Processing on Large ClustersHadoop环境的安装By徐伟Parallel K-Means Clustering Based on MapReduce《Hadoop权威指南》的第一章和第二章迭代式MapReduce框架介绍董的博客HaLoop: Efficient Iterative Data Processing 阅读全文

posted @ 2013-03-07 09:26 午后的猫阅读(913) 评论(0) 推荐(1) 编辑

【转】HFile 存储格式

摘要：HFile存储格式文章原址：http://hi.baidu.com/cpuramdisk/item/43a4eb0d0879d2cd90571835http://www.tbdata.org/?s=hbaseHBase中的所有数据文件都存储在Hadoop HDFS文件系统上，主要包括两种文件类型：1.HFile， HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile2.HLog File，HBase中WAL（Write Ahead Log）的存储格式，物理上是Had 阅读全文

posted @ 2012-08-29 12:00 午后的猫阅读(815) 评论(0) 推荐(0) 编辑

【转】详解MapReduce shuffle 过程

摘要：内容很多，在这里部贴了。源网址：http://langyu.iteye.com/blog/992916 讲解的非常透彻，详细。阅读全文

posted @ 2012-03-17 10:06 午后的猫阅读(372) 评论(0) 推荐(0) 编辑

[转载]使用Hadoop MapReduce 进行排序

摘要：本文转自：http://www.alidw.com/?p=1420 在hadoop中的例子TeraSort，就是一个利用mapredue进行排序的例子。本文参考并简化了这个例子：排序的基本思想是利用了mapreduce的自动排序功能，在hadoop中，从map到reduce阶段，map出来的结构会按照各个key按照 hash值分配到各个reduce中，其中，在reduce中所有的key都是有序的了。如果使用一个reduce，那么我们直接将他output出来就行了，但是这不能够体现分布式的好处，所以，我们还是要用多个reduce来跑。比方说我们有1000个1-10000的数据，跑10个ru. 阅读全文

posted @ 2012-03-16 22:25 午后的猫阅读(2091) 评论(0) 推荐(0) 编辑

MapReduce编程学习笔记（四）—mapreduce中实现对hbase中表数据的添加

摘要：参考网址：http://www.javabloger.com/article/hadoop-mapreduce-hbase.html 根据参考网址中的小实例，自己亲自实现了一下，记录一下自己对该程序的一些理解。实例：先将数据文件上传到HDFS，然后用MapReduce进行处理，将处理后的数据插入到hbase中。代码如下：首先是Mapper：package txt_to_hbase;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;imp.. 阅读全文

posted @ 2011-11-02 20:50 午后的猫阅读(7114) 评论(1) 推荐(1) 编辑

Hadoop+HBase 伪分布式安装配置

摘要：（一）hadoop伪分布式的配置：这个也可以参考《hadoop权威指南》上面写的很全面，这里再说一遍：我的机器配置环境： OS：Ubuntu10.10 ，hadoop版本：hadoop-0.20.2（下载网址： http://apache.etoak.com//hadoop/common/hadoop-0.20.2/ ） (1)安装jdk，请参考我之前的文章：http://www.cnblogs.com/Dreama/articles/2097630.html (2)安装配置SSH，使其可以自动登录： $ sudo apt-get install ssh $ ssh-keygen -... 阅读全文

posted @ 2011-10-20 17:14 午后的猫阅读(6698) 评论(1) 推荐(1) 编辑

MapReduce编程学习笔记（三）—mapreduce对key值排序问题

摘要：最近在学习MapReduce编程遇到很多用MR实现按某一列值排序，或二次排序的类似问题，于是试着用MR实现各种排序问题，最终有点小总结：无需在key对象之外写任何排序函数，MR会完成按key值排序，具体详解如下：在这之前要先说一下WritableComparable接口。Writable接口大家可能都知道，它是一个实现了序列化协议的序列化对象。在Hadoop中定义一个结构化对象都要实现Writable接口，使得该结构化对象可以序列化为字节流，字节流也可以反序列化为结构化对象。那WritableComparable接口是可序列化并且可比较的接口。MapReduce中所有的key值类型都必... 阅读全文

posted @ 2011-09-30 21:23 午后的猫阅读(3922) 评论(1) 推荐(0) 编辑

MapReduce编程学习笔记（二）—输入格式InputFormat

摘要：这篇文章记录一下自己对Hadoop输入格式的理解。详细参考hadoop API org.apache.hadoop.mapreduce 以及org.apache.hadoop.mapreduce.input.lib 包。图一：InputFormat类结构以上是hadoop输入部分用到的类的结构层次图（注：改图是根据旧版API画，类所在的包显示的均是就版API中所在，我在学习时均使用新版API，贴出此图为了直观的理解）。InputFormat（org.apache.hadoop.mapreduce）：从上图可以看出，最上层是一个InputFormat接口，它描述MapReduc... 阅读全文

posted @ 2011-09-29 22:35 午后的猫阅读(3669) 评论(0) 推荐(0) 编辑

MapReduce编程学习笔记（一）—新旧API

摘要：我使用的hadoop的版本为0.20.2。Hadoop从0.20.0版本加入了新的MapReduce Java API，我之后的学习中没有额外说明，均使用的新的API。下面简单介绍一下新旧API的区别：（1）新的API倾向于使用抽象类，而不是接口。新的API中Mapper和Reducer是抽象类。（2）新的API在org.apache.hadoop.mapreduce包和子包中，旧版的API放在org.apache.hadoop.mapred中。在编程中一定要注意两个包不要混用或者用错，程序中要正确统一的的import进新包或者旧包。我在刚开始写代码的时候由于没有注意这一点，程序出... 阅读全文

posted @ 2011-09-29 16:16 午后的猫阅读(899) 评论(0) 推荐(0) 编辑

[转]hadoop FileInputFormat详解额

摘要：本文转自：http://labs.chinamobile.com/mblogs/573_23352接下来我们按照MapReduce过程中数据流动的顺序，来分解org.apache.hadoop.mapreduce.lib.*的相关内容，并介绍对应的基类的功能。首先是input部分，它实现了MapReduce的数据输入部分。类图如下：类图的右上角是InputFormat，它描述了一个MapReduce Job的输入，通过InputFormat，Hadoop可以：l 检查MapReduce输入数据的正确性；l 将输入数据切分为逻辑块InputSplit，这些块会分配给Mapper；l 提供一个R. 阅读全文

posted @ 2011-09-26 08:34 午后的猫阅读(5469) 评论(0) 推荐(1) 编辑

[转]Hadoop源码分析之Configuration配置

摘要：本文转自：http://blog.csdn.net/dahaifeiyu/article/details/6655652 最近也觉得应该仔细的看一下Hadoop的源代码了，以前只是懂得基本的架构了使用，最近在做一个系统，觉得很多东西可以借鉴MapReduce的可扩展性。但是当我们的系统的0.1版本出现的时候才发现我们的配置上很混乱。于是我自己的看了一下Hadoop的Configuration类，真的觉得Hadoop的配置是值得借鉴的，学到了很多！下面是Configuration类的属性清单： Log是记录日志的对象。quietmode对应的是配置信息加载过程中是否属于静默的模式，如果处于静阅读全文

posted @ 2011-09-24 10:54 午后的猫阅读(1913) 评论(0) 推荐(0) 编辑

[转] hadoop面试可能遇到的问题

摘要：本文转自：http://1985wanggang.blog.163.com/blog/static/7763833201131933828371/Q1. Name the most common InputFormats defined inHadoop? Which one is default ?Following 2 are most common InputFormats defined inHadoop- TextInputFormat- KeyValueInputFormat- SequenceFileInputFormatQ2. What is the difference be 阅读全文

posted @ 2011-09-23 09:40 午后的猫阅读(659) 评论(0) 推荐(0) 编辑

ubuntu下用Eclipse写MapReduce程序时的配置

摘要：最近需要在Ubuntu下用Eclipse写MapReduce的程序，现记录下需要在Eclipse做哪些配置，部署好一个Mapeduce工程。1.在Ubuntu下将Hadoop安装并配置好。2.找一个可以在Ubuntu下运行的Eclipse。Hadoop自带了Eclipse的插件，在Hadoo的安装软件包的contrib/eclipse-plugin下有hadoop-0.20-eclipse-plugin.jar文件，在确保eclipse关闭的情况下将该文件拷贝到eclipse安装目录下的plugins下。3.打开Eclipse，点击主菜单下Window--preferences，在左边栏里.. 阅读全文

posted @ 2011-09-15 22:14 午后的猫阅读(1738) 评论(0) 推荐(0) 编辑

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Incompatible namespaceIDs ...datanode namespaceID...

摘要：解决hadoop集群搭建过程中，namenode节点namespaceID值与datanode节点namespaceID值不一致问题。阅读全文

posted @ 2011-07-04 10:57 午后的猫阅读(3687) 评论(2) 推荐(1) 编辑

Centos下安装hadoop-fuse时关于lib类库的问题

摘要：该问题在安装hadoop以及hadoop-fuse时遇到，困扰了很久。本人安装hadoop时操作系统Centos5.6，64位机。用Cloudera安装好Hadoop-0.20，以及hadop-fuse，但是在hadoop安装目录下用：ldd bin/fuse_dfs 命令发现有几个问题：1.找不到 libjvm.so和libhdfs.so.0文件。 2.本机是64位机，其余的lib文件本应该找/lib64文件下的对应文件，现在却都找到/lib文件夹下。具体如下图：我不确定我以下的理解是不是完全正确，但是我用下面的方法确实将以上两个问题解决了。先说问题2，64位机，lib文件却到/l. 阅读全文

posted @ 2011-06-28 11:04 午后的猫阅读(1603) 评论(4) 推荐(0) 编辑

文章分类 - Hadoop

公告