随笔 - 163
文章 - 2
评论 - 370
阅读 -
46万
03 2015 档案
hadoop工作流引擎之azkaban [转]
摘要:介绍Azkaban是twitter出的一个任务调度系统,操作比Oozie要简单很多而且非常直观,提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度,Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是http://azkaban.githu...
阅读全文
Hadoop作业JVM堆大小设置优化 [转]
摘要:前段时间,公司Hadoop集群整体的负载很高,查了一下原因,发现原来是客户端那边在每一个作业上擅自配置了很大的堆空间,从而导致集群负载很高。下面我就来讲讲怎么来现在客户端那边的JVM堆大小的设置。我们知道,在mapred-site.xml配置文件里面有个mapred.child.java.opts配...
阅读全文
hadoop版本比较 [转]
摘要:由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1.Apache Hadoop1.1Apache版本衍化截至目前(2012年12月23日)...
阅读全文
腾讯大规模Hadoop集群实践 [转程序员杂志]
摘要:TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。TDW服务覆盖了腾讯绝大部分业务产品,单集群规模...
阅读全文
TaskTracker节点上的内存管理器
摘要:Hadoop平台的最大优势就是充分地利用了廉价的PC机,这也就使得集群中的工作节点存在一个重要的问题——节点所在的PC机内存资源有限(这里所说的工作节点指的是TaskTracker节点),执行任务时常常出现内存不够的情况,如:堆溢出错误;同时,该PC机也可能部署了其它集群的工作节点。针对这个问题,H...
阅读全文
Ganglia监控Hadoop集群的安装部署[转]
摘要:Ganglia监控Hadoop集群的安装部署一、 安装环境Ubuntuserver 12.04安装gmetad的机器:192.168.52.105安装gmond的机 器:192.168.52.31,192.168.52.32,192.168.52.33,192.168.52.34,192.168.5...
阅读全文
Hadoop集群中添加硬盘
摘要:Hadoop工作节点扩展硬盘空间接到老板任务,Hadoop集群中硬盘空间不够用,要求加一台机器到Hadoop集群,并且每台机器在原有基础上加一块2T硬盘,老板给力啊,哈哈。这些我把完成这项任务的步骤和我遇到的问题和解决方法总结一下,分享给大家。1.首先,介绍一下用到的基本命令和配置,如果本文的网友时...
阅读全文
[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想
摘要:Ubuntu系统 (我用到版本号是140.4)ubuntu系统是一个以桌面应用为主的Linux操作系统,Ubuntu基于Debian发行版和GNOME桌面环境。Ubuntu的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统,它可免费使用,并带有社团及专业的支持应。作...
阅读全文
[Hadoop入门] - 2 ubuntu安装与配置 hadoop安装与配置
摘要:ubuntu安装(这里我就不一一捉图了,只引用一个网址, 相信大家能力)ubuntu安装参考教程: http://jingyan.baidu.com/article/14bd256e0ca52ebb6d26129c.html注意下面几点:1、设置虚拟机的IP, 点击虚拟机的右下角网络连接图标, 选择...
阅读全文