傾聽雨落

2016年5月28日

摘要：博客园的编辑器真的很难用，还是去CSDN吧阅读全文

posted @ 2016-05-28 11:18 傾聽雨落阅读(108) 评论(0) 推荐(0)

摘要： Yarn通过两个守护线程提供核心服务：ResourceManager，管理集群所有资源的切分以及作业的调度与监控；NodeManager，运行在集群所有节点上，启动并监控容器的运行状况，并负责向ResourceManager汇报。在linux上，hadoop是通过cgroup技术实现contai 阅读全文

posted @ 2016-05-28 11:14 傾聽雨落阅读(211) 评论(0) 推荐(0)

2016年5月26日

hadoop之 HDFS 数据I/O（一）

摘要：本文知识由 hadoop权威指南第四版获得，图片也来自与此 Read Data client通过调用 FileSystem对象的open()方法来打开文件。在HDFS中，FileSystem是DistributedFileSystem的一个实例。DistributedFileSystem是通过RP 阅读全文

posted @ 2016-05-26 20:02 傾聽雨落阅读(618) 评论(0) 推荐(0)

2016年5月25日

hadoop 之源码 ResourceManager

摘要： hadoop RM 源码中关于ResourceManager的注释只有寥寥几句。大概意思就是管理集群所有的资源。仔细看了下ResourceManager的方法列表，瞅到一mian()方法。这里有一关键点，ResourceManager在启动时，首先调用父类init()方法，然后调用start() 阅读全文

posted @ 2016-05-25 22:46 傾聽雨落阅读(413) 评论(0) 推荐(0)

hadoop之 hdfs FilePattern

摘要：举一个例子:使用mapreduce统计一个月或者两个的日志文件，这里可能有大量的日志文件。如何快速的提取文件路径？在HDFS中，可以使用通配符来解决这个问题。与linux shell的通配符相同。例如： | Tables | Are | | |: :| | 2016/ | 2016/05 201 阅读全文

posted @ 2016-05-25 16:39 傾聽雨落阅读(461) 评论(0) 推荐(0)

hadoop之 HDFS读写 java interface

摘要：读取文件 seek 读取写文件列出文件列表删除文件源码如果删除文件夹需要设置为true，如果未flase会抛出异常。阅读全文

posted @ 2016-05-25 15:45 傾聽雨落阅读(255) 评论(0) 推荐(1)

2016年5月24日

hadoop 之源码 job

摘要： hadoop source job 类 JobSubmitter.submitJobInternal() The job submission process involves: 1. Checking the input and output specifications of the job. 阅读全文

posted @ 2016-05-24 23:25 傾聽雨落阅读(226) 评论(0) 推荐(0)

hadoop之 mapreduce Combiner

摘要：许多mapreduce作业会受限与集群的带宽，因此尽量降低map和reduce任务之间的数据传输是有必要的。Hadoop允许用户针对map任务的输出指定一个combiner函数处理map任务的输出，并作为reduce函数的输入。因为combine是优化方案，所以Hadoop无法确定针对map输出记录阅读全文

posted @ 2016-05-24 19:55 傾聽雨落阅读(680) 评论(0) 推荐(0)

hadoop之 mapreduce data flow

摘要：注：随笔取自于 hadoop权威指南第四版 Hadoop 会讲MapReduce输入的数据切分成大小相等的数据块（fixed size 固定大小，我认为翻译成相等大小比较合适），或者称之为分片。Hadoop会未每一个分片创建一个map 任务，并由该任务来运行用户自定义的map函数。一个输入数据可阅读全文

posted @ 2016-05-24 18:42 傾聽雨落阅读(460) 评论(0) 推荐(0)

2016年5月23日

hadoop之 mapreduce example（2）

摘要：解释下第一篇程序的意思 Job ’s setJarByClass() 便于hadoop查找并加载相关的jar包文件 FileInputFormat.addInputPath() 设置输入路径，可以是一个文件，也可以是一个文件夹，而且可以被调用多次，用以加载不同的输入路径。 FileOutputF 阅读全文

posted @ 2016-05-23 19:52 傾聽雨落阅读(728) 评论(0) 推荐(0)

公告