随笔分类 -  hadoop

hadoop

摘要:PathhdfsPath=newPath(args[0]);Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(hdfsPath.toUri(),conf);CompressionCodecFactoryfactory=n... 阅读全文
posted @ 2014-07-22 11:04 曹守鑫 阅读(406) 评论(0) 推荐(0)
摘要:1、MapReduce中数据流动(1)最简单的过程:map-reduce(2)定制了partitioner以将map的结果送往指定reducer的过程: map-partition-reduce(3)增加了在本地先进性一次reduce(优化)过程: map-combin(本地reduce)-part... 阅读全文
posted @ 2014-06-12 09:11 曹守鑫 阅读(466) 评论(0) 推荐(0)
摘要:转载:http://my.oschina.net/shiw019/blog/92771HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件 这里的“超大文件”是指几百MB、GB甚至TB级别的... 阅读全文
posted @ 2014-04-16 09:48 曹守鑫 阅读(276) 评论(0) 推荐(0)
摘要:一致性Hash算法一致性hash算法是在1997年,麻省理工学院设计的,解决因特网中的热点问题满足四个条件:平衡性,单调性,分散性,负载均衡场景:比如你有N个cache服务器,如何将一个对象object,映射到N个cache中普通hash算法:1一个cache服务器m down掉了(在实际应用中必须... 阅读全文
posted @ 2014-04-15 21:41 曹守鑫 阅读(716) 评论(0) 推荐(0)
摘要:https://github.com/tomwhite/hadoop-book/blob/2e/ 阅读全文
posted @ 2013-07-02 09:43 曹守鑫 阅读(551) 评论(0) 推荐(0)
摘要:Hadoop集群配置(最全面总结)huangguisu 通常,集群里的一台机器被指定为NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)1 先决条件确保在你集群中的每个节点上都安装了所有必需软件:sun-JDK ,ssh,HadoopJavaTM1.5.x,必须安装,建议选择Sun公司发行的Java版本。ssh必须安装并且保证 阅读全文
posted @ 2013-07-02 09:40 曹守鑫 阅读(295) 评论(0) 推荐(0)
摘要:JobTracker和TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:jobclient,JobTracker与TaskTracker。1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker创建每 阅读全文
posted @ 2013-07-02 09:36 曹守鑫 阅读(427) 评论(0) 推荐(0)