随笔档案「2016年9月」 - hadoop_dev

hbase伪分布式安装（转）

摘要：原文地址:http://blog.csdn.net/yonghutwo/article/details/24555103 本机环境： ubuntu 12.4 Hadoop 1.1.2 安装hbase版本为0.94.18 1、修改hbase-0.94.18下的conf目录下的配置文件hbase-env 阅读全文

posted @ 2016-09-30 16:36 hadoop_dev 阅读(603) 评论(0) 推荐(0)

Hbase原理、基本概念、基本架构

摘要：来源:http://blog.csdn.net/woshiwanxin102213/article/details/17584043 概述 HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于Google BigTable模型开发的，典型的key/value系统；HBase是Apac 阅读全文

posted @ 2016-09-28 15:28 hadoop_dev 阅读(310) 评论(0) 推荐(0)

Pig用户自定义函数（UDF）转

摘要：原文地址:http://blog.csdn.net/zythy/article/details/18326693 我们以气温统计和词频统计为例，讲解以下三种用户自定义函数。用户自定义函数什么时候需要用户自定义函数呢？和其它语言一样，当你希望简化程序结构或者需要重用程序代码时，函数就是你不二选择。阅读全文

posted @ 2016-09-27 18:30 hadoop_dev 阅读(869) 评论(1) 推荐(0)

LOAD和PigStorage的一些测试例子 (转)

摘要：原地址:http://f.dataguru.cn/thread-233064-1-1.htm 因为理解上的错误，在这里被搞糊涂了。通过做测试，应该算是澄清了，所以写出来。假设有个文件叫test,该文件的内容如下(ip地址和url之间有一个空格)：127.0.0.1 dataguru.cn/forum 阅读全文

posted @ 2016-09-27 16:09 hadoop_dev 阅读(451) 评论(0) 推荐(0)

pig的各种运行模式与运行方式详解

摘要：一、pig的运行模式： Pig 有两种运行模式： Local 模式和 MapReduce 模式。当 Pig 在 Local 模式运行的时候， Pig 将只访问本地一台主机；当 Pig 在 MapReduce 模式运行的时候， Pig 将访问一个 Hadoop 集群和 HDFS 的安装位置。这时， P 阅读全文

posted @ 2016-09-27 10:40 hadoop_dev 阅读(2548) 评论(0) 推荐(0)

Hadoop Mapreduce分区、分组、二次排序过程详解[转]

摘要：原文地址：Hadoop Mapreduce分区、分组、二次排序过程详解[转]作者：徐海蛟教学用途1、MapReduce中数据流动（1）最简单的过程： map - reduce （2）定制了partitioner以将map的结果送往指定reducer的过程：　map - partition - 阅读全文

posted @ 2016-09-26 19:58 hadoop_dev 阅读(6426) 评论(0) 推荐(2)

hdfs 名称节点和数据节点

摘要：名字节点(NameNode )是HDFS主从结构中主节点上运行的主要进程，它指导主从结构中的从节点，数据节点(DataNode)执行底层的I/O任务。名字节点是HDFS的书记员，维护着整个文件系统的文件目录树，文件/目录的元信息和文件的数据块索引，即每个文件对应的数据块列表(后面的讨论中，上述关系阅读全文

posted @ 2016-09-26 17:55 hadoop_dev 阅读(11478) 评论(0) 推荐(0)

MapReduce中的分区方法Partitioner

摘要：在进行MapReduce计算时，有时候需要把最终的输出数据分到不同的文件中，比如按照省份划分的话，需要把同一省份的数据放到一个文件中；按照性别划分的话，需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么，如果要得到多个文件，意味着有同样数量的Reducer任务阅读全文

posted @ 2016-09-24 15:23 hadoop_dev 阅读(6635) 评论(0) 推荐(3)

hadoop中map和reduce的数量设置问题

摘要：转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行阅读全文

posted @ 2016-09-24 11:17 hadoop_dev 阅读(6906) 评论(0) 推荐(0)

MapReduce工作原理图文详解

摘要：1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程正文： 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图：流程分析： 1.在客户端启动一个作业。 2.向JobTracker请求一个Job ID。 3.将运行作业所需要的资阅读全文

posted @ 2016-09-22 09:01 hadoop_dev 阅读(7749) 评论(0) 推荐(0)

hadoop_dev

09 2016 档案

公告