上一页 1 ··· 10 11 12 13 14
摘要: 原地址:http://f.dataguru.cn/thread-233064-1-1.htm 因为理解上的错误,在这里被搞糊涂了。通过做测试,应该算是澄清了,所以写出来。假设有个文件叫test,该文件的内容如下(ip地址和url之间有一个空格):127.0.0.1 dataguru.cn/forum 阅读全文
posted @ 2016-09-27 16:09 hadoop_dev 阅读(441) 评论(0) 推荐(0) 编辑
摘要: 一、pig的运行模式: Pig 有两种运行模式: Local 模式和 MapReduce 模式。当 Pig 在 Local 模式运行的时候, Pig 将只访问本地一台主机;当 Pig 在 MapReduce 模式运行的时候, Pig 将访问一个 Hadoop 集群和 HDFS 的安装位置。这时, P 阅读全文
posted @ 2016-09-27 10:40 hadoop_dev 阅读(2469) 评论(0) 推荐(0) 编辑
摘要: 原文地址:Hadoop Mapreduce分区、分组、二次排序过程详解[转]作者: 徐海蛟 教学用途1、MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition -  阅读全文
posted @ 2016-09-26 19:58 hadoop_dev 阅读(6233) 评论(0) 推荐(2) 编辑
摘要: 名字节点(NameNode )是HDFS主从结构中主节点上运行的主要进程,它指导主从结构中的从节点,数据节点(DataNode)执行底层的I/O任务。 名字节点是HDFS的书记员,维护着整个文件系统的文件目录树,文件/目录的元信息和文件的数据块索引,即每个文件对应的数据块列表(后面的讨论中,上述关系 阅读全文
posted @ 2016-09-26 17:55 hadoop_dev 阅读(11165) 评论(0) 推荐(0) 编辑
摘要: 在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中;按照性别划分的话,需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么,如果要得到多个文件,意味着有同样数量的Reducer任务 阅读全文
posted @ 2016-09-24 15:23 hadoop_dev 阅读(6600) 评论(0) 推荐(3) 编辑
摘要: 转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行 阅读全文
posted @ 2016-09-24 11:17 hadoop_dev 阅读(6853) 评论(0) 推荐(0) 编辑
摘要: 1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程 正文: 1.MapReduce作业运行流程 下面贴出我用visio2010画出的流程示意图: 流程分析: 1.在客户端启动一个作业。 2.向JobTracker请求一个Job ID。 3.将运行作业所需要的资 阅读全文
posted @ 2016-09-22 09:01 hadoop_dev 阅读(7623) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14