随笔分类 -  Hadoop

Hadoop开源项目及相关技术
Hadoop Capacity Scheduler源码实现剖析
摘要:前段时间项目中使用到了Hadoop Capacity Scheduler调度器,根据业务需求,需要进行二次开发工作,因此研究了其实现原理及源码,这里是自己做的一些总结工作。 阅读全文

posted @ 2013-09-13 18:03 大圆那些事 阅读(3334) 评论(1) 推荐(0) 编辑

集群应用及运维经验小结
摘要:以下是自己这1年多以来在集群应用与运维方面所做事情的梳理与总结,内容比较零散,大家姑且当做一篇非严格意义上的技术文章来阅读。 阅读全文

posted @ 2013-06-27 13:43 大圆那些事 阅读(10363) 评论(3) 推荐(1) 编辑

Hive中视图机制的初步使用及分析
摘要:本文是对Hive中逻辑视图的介绍,通过一个简单的视图例子,说明其使用方法及执行过程。 阅读全文

posted @ 2013-04-29 11:00 大圆那些事 阅读(11079) 评论(0) 推荐(0) 编辑

数据迁移工具Sqoop和DataX功能比较
摘要:最近由于项目需要,对Apache Sqoop和Taobao DataX工具进行了调研,这里是对二者功能的初步梳理,不会涉及技术细节和使用方法,留作日后选型参考。 阅读全文

posted @ 2013-04-29 10:34 大圆那些事 阅读(21383) 评论(3) 推荐(0) 编辑

HiveServer2连接ZooKeeper出现Too many connections问题的解决
摘要:HiveServer2支持多客户端的并发访问,使用ZooKeeper来管理Hive表的读写锁。实际环境中,遇到了HiveServer2连接ZooKeeper出现Too many connections的问题,这里是对这一问题的排查和解决过程。 阅读全文

posted @ 2013-03-23 14:44 大圆那些事 阅读(11112) 评论(3) 推荐(1) 编辑

Hadoop Capacity Scheduler配置使用记录
摘要:这里参考Capacity Scheduler Guide,结合自己的实践经验,对Capacity Scheduler的主要配置参数进行总结。 阅读全文

posted @ 2013-03-22 23:10 大圆那些事 阅读(2597) 评论(0) 推荐(0) 编辑

分布式系统Hadoop源码阅读与分析(一):作业调度器实现机制
摘要:上一篇博文对Hadoop的作业调度器进行了介绍,我们知道,JobTracker和TaskTracker是Hadoop作业调度过程中最核心的两个部分,前者负责map/reduce作业的调度与分派,后者负责map/reduce作业的实际执行,它们之间通过RPC机制进行通讯。下面将对Hadoop 0.20.2版本中作业调度相关源码进行分析,至于JobTracker和TaskTracker中与作业调度无关的源码部分,并未进行详细介绍。 阅读全文

posted @ 2011-09-04 16:33 大圆那些事 阅读(6351) 评论(11) 推荐(2) 编辑

分布式系统Hadoop作业调度器及其问题的讨论
摘要:Hadoop作业调度器的设计采用的是插件机制,即作业调度器是动态加载的、可插拔的,同时第三方可以开发自己的作业调度器替代Hadoop默认的调度器。目前,Hadoop的作业调度器主要有以下三个:FIFO Scheduler、Capacity Scheduler、Fair Scheduler。这里对Hadoop作业调度器的基本原理进行介绍,然后就其存在的问题给出了自己的理解。 阅读全文

posted @ 2011-09-04 16:02 大圆那些事 阅读(3857) 评论(1) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示