hadoop

hadoop 读取文件操作

摘要：PathhdfsPath=newPath(args[0]);Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(hdfsPath.toUri(),conf);CompressionCodecFactoryfactory=n... 阅读全文

posted @ 2014-07-22 11:04 曹守鑫阅读(413) 评论(0) 推荐(0)

Hadoop Mapreduce分区、分组、二次排序过程详解[转]

摘要：1、MapReduce中数据流动（1）最简单的过程：map-reduce（2）定制了partitioner以将map的结果送往指定reducer的过程：　map-partition-reduce（3）增加了在本地先进性一次reduce（优化）过程：　map-combin(本地reduce)-part... 阅读全文

posted @ 2014-06-12 09:11 曹守鑫阅读(474) 评论(0) 推荐(0)

Hadoop理解与分析一

摘要：转载：http://my.oschina.net/shiw019/blog/92771HDFS是Hadoop Distribute File System 的简称，也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件这里的“超大文件”是指几百MB、GB甚至TB级别的... 阅读全文

posted @ 2014-04-16 09:48 曹守鑫阅读(287) 评论(0) 推荐(0)

一致性hash

摘要：一致性Hash算法一致性hash算法是在1997年，麻省理工学院设计的，解决因特网中的热点问题满足四个条件：平衡性，单调性，分散性，负载均衡场景：比如你有N个cache服务器，如何将一个对象object，映射到N个cache中普通hash算法：1一个cache服务器m down掉了（在实际应用中必须... 阅读全文

posted @ 2014-04-15 21:41 曹守鑫阅读(727) 评论(0) 推荐(0)

hadoop权威指南实例源代码网址

摘要：https://github.com/tomwhite/hadoop-book/blob/2e/ 阅读全文

posted @ 2013-07-02 09:43 曹守鑫阅读(555) 评论(0) 推荐(0)

Hadoop集群搭建

摘要：Hadoop集群配置（最全面总结）huangguisu 通常，集群里的一台机器被指定为NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址：(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)1 先决条件确保在你集群中的每个节点上都安装了所有必需软件：sun-JDK ，ssh，HadoopJavaTM1.5.x，必须安装，建议选择Sun公司发行的Java版本。ssh必须安装并且保证阅读全文

posted @ 2013-07-02 09:40 曹守鑫阅读(302) 评论(0) 推荐(0)

JobStracker与TaskStracker的区别联系

摘要：JobTracker和TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：jobclient，JobTracker与TaskTracker。1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker创建每阅读全文

posted @ 2013-07-02 09:36 曹守鑫阅读(430) 评论(0) 推荐(0)

曹守鑫

随笔分类 - hadoop

公告