随笔分类 - hadoop
hadoop
摘要:PathhdfsPath=newPath(args[0]);Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(hdfsPath.toUri(),conf);CompressionCodecFactoryfactory=n...
阅读全文
摘要:1、MapReduce中数据流动(1)最简单的过程:map-reduce(2)定制了partitioner以将map的结果送往指定reducer的过程: map-partition-reduce(3)增加了在本地先进性一次reduce(优化)过程: map-combin(本地reduce)-part...
阅读全文
摘要:转载:http://my.oschina.net/shiw019/blog/92771HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件 这里的“超大文件”是指几百MB、GB甚至TB级别的...
阅读全文
摘要:一致性Hash算法一致性hash算法是在1997年,麻省理工学院设计的,解决因特网中的热点问题满足四个条件:平衡性,单调性,分散性,负载均衡场景:比如你有N个cache服务器,如何将一个对象object,映射到N个cache中普通hash算法:1一个cache服务器m down掉了(在实际应用中必须...
阅读全文
摘要:https://github.com/tomwhite/hadoop-book/blob/2e/
阅读全文
摘要:Hadoop集群配置(最全面总结)huangguisu 通常,集群里的一台机器被指定为NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)1 先决条件确保在你集群中的每个节点上都安装了所有必需软件:sun-JDK ,ssh,HadoopJavaTM1.5.x,必须安装,建议选择Sun公司发行的Java版本。ssh必须安装并且保证
阅读全文
摘要:JobTracker和TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:jobclient,JobTracker与TaskTracker。1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker创建每
阅读全文