hadoop_dev

2016年9月27日

摘要：原地址:http://f.dataguru.cn/thread-233064-1-1.htm 因为理解上的错误，在这里被搞糊涂了。通过做测试，应该算是澄清了，所以写出来。假设有个文件叫test,该文件的内容如下(ip地址和url之间有一个空格)：127.0.0.1 dataguru.cn/forum 阅读全文

posted @ 2016-09-27 16:09 hadoop_dev 阅读(451) 评论(0) 推荐(0)

pig的各种运行模式与运行方式详解

摘要：一、pig的运行模式： Pig 有两种运行模式： Local 模式和 MapReduce 模式。当 Pig 在 Local 模式运行的时候， Pig 将只访问本地一台主机；当 Pig 在 MapReduce 模式运行的时候， Pig 将访问一个 Hadoop 集群和 HDFS 的安装位置。这时， P 阅读全文

posted @ 2016-09-27 10:40 hadoop_dev 阅读(2546) 评论(0) 推荐(0)

2016年9月26日

Hadoop Mapreduce分区、分组、二次排序过程详解[转]

摘要：原文地址：Hadoop Mapreduce分区、分组、二次排序过程详解[转]作者：徐海蛟教学用途1、MapReduce中数据流动（1）最简单的过程： map - reduce （2）定制了partitioner以将map的结果送往指定reducer的过程：　map - partition - 阅读全文

posted @ 2016-09-26 19:58 hadoop_dev 阅读(6424) 评论(0) 推荐(2)

hdfs 名称节点和数据节点

摘要：名字节点(NameNode )是HDFS主从结构中主节点上运行的主要进程，它指导主从结构中的从节点，数据节点(DataNode)执行底层的I/O任务。名字节点是HDFS的书记员，维护着整个文件系统的文件目录树，文件/目录的元信息和文件的数据块索引，即每个文件对应的数据块列表(后面的讨论中，上述关系阅读全文

posted @ 2016-09-26 17:55 hadoop_dev 阅读(11473) 评论(0) 推荐(0)

2016年9月24日

MapReduce中的分区方法Partitioner

摘要：在进行MapReduce计算时，有时候需要把最终的输出数据分到不同的文件中，比如按照省份划分的话，需要把同一省份的数据放到一个文件中；按照性别划分的话，需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么，如果要得到多个文件，意味着有同样数量的Reducer任务阅读全文

posted @ 2016-09-24 15:23 hadoop_dev 阅读(6634) 评论(0) 推荐(3)

hadoop中map和reduce的数量设置问题

摘要：转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行阅读全文

posted @ 2016-09-24 11:17 hadoop_dev 阅读(6905) 评论(0) 推荐(0)

2016年9月22日

MapReduce工作原理图文详解

摘要： 1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程正文： 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图：流程分析： 1.在客户端启动一个作业。 2.向JobTracker请求一个Job ID。 3.将运行作业所需要的资阅读全文

posted @ 2016-09-22 09:01 hadoop_dev 阅读(7747) 评论(0) 推荐(0)

公告