打赏

星辰大海ゞ

That which does not kill us makes us stronger!

导航

随笔分类 -  Hadoop

使用Ganglia监控hadoop、hbase
摘要:Ganglia是一个监控服务器,集群的开源软件,能够用曲线图表现最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。 Ganglia的强大在于:ganglia服务端能够通过一台客户端收集到同一个网段的所有客户端的数据,ganglia集群服务端能够 阅读全文

posted @ 2016-07-14 17:48 星辰大海ゞ 阅读(750) 评论(0) 推荐(0) 编辑

Flume NG简介及配置
摘要:Flume下载地址:http://apache.fayea.com/flume/ 官方使用文档: http://flume.apache.org/documentation.html 与RocketMQ的结合使用扩展:Rocket-Flume:https://github.com/apache/ro 阅读全文

posted @ 2016-05-30 15:39 星辰大海ゞ 阅读(1736) 评论(2) 推荐(0) 编辑

Hive安装与配置--- 基于MySQL元数据
摘要:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据 阅读全文

posted @ 2016-05-30 15:32 星辰大海ゞ 阅读(739) 评论(0) 推荐(0) 编辑

spark1.6.1 on yarn搭建部署
摘要:注:本文是建立在hadoop已经搭建完成的基础上进行的。 Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。该框架对资源调度,任务的提交、执行和跟踪,节点间的通信以及数据并行处理的内在底层操作都进行了抽象。它提供了一个更高级别的API用于处理分布式数据。从这方 阅读全文

posted @ 2016-05-26 17:07 星辰大海ゞ 阅读(1222) 评论(0) 推荐(0) 编辑

hadoop搭建部署
摘要:HDFS(Hadoop Distributed File System)和Mapreduce是hadoop的两大核心: HDFS(文件系统)实现分布式存储的底层支持 Mapreduce(编程模型)实现分布式并行任务处理的程序支持 JobTracker 对应于 NameNode TaskTracker 阅读全文

posted @ 2016-05-19 18:07 星辰大海ゞ 阅读(380) 评论(0) 推荐(0) 编辑

Hadoop和Spark的异同
摘要:谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相 阅读全文

posted @ 2016-05-18 14:12 星辰大海ゞ 阅读(185) 评论(0) 推荐(0) 编辑

hadoop配置文件的参数含义说明
摘要:#hadoop version 查看版本号1 、获取默认配置hadoop2系列配置文件一共包括6个,分别是hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和slaves。除了hdfs-site.xml文件在... 阅读全文

posted @ 2015-03-31 16:16 星辰大海ゞ 阅读(1309) 评论(0) 推荐(0) 编辑

HDFS介绍
摘要:HDFS是Hadoop的核心模块之一,它是Hadoop分布式文件系统(Hadoop Distributed File System)HDFS体系结构如上图所示,它采用主从结构,Namenode属于主段,Datanode属于从端Namenode1)管理文件系统的命名空间。2)记录 每个文件数据快在各个... 阅读全文

posted @ 2015-03-23 16:45 星辰大海ゞ 阅读(251) 评论(0) 推荐(0) 编辑

漫画描述HDFS工作原理
摘要:作者不详,内容浅显易懂,特拿来与大家分享。 阅读全文

posted @ 2015-03-23 14:49 星辰大海ゞ 阅读(220) 评论(0) 推荐(0) 编辑

离线安装Cloudera Manager 5和CDH5
摘要:关于CDH和Cloudera Manager CDH (Cloudera's Distribution, including Apache Hadoop),是Cloudera 完全开源的Hadoop 分布式系统架构,为了满足企业的需求而特别构建的系统。即一个开源的企业级分布式存储系统。 CDH是Ha 阅读全文

posted @ 2015-03-18 15:34 星辰大海ゞ 阅读(1432) 评论(0) 推荐(0) 编辑

storm集群相关资料
摘要:1. Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:主控节点(Master Node)上运行一个被称为Nimbus的后台程序,它负责在Storm集群内分发代码,分配任务给工作机器,并且负责监控集群运行状态和监... 阅读全文

posted @ 2015-03-12 18:13 星辰大海ゞ 阅读(413) 评论(0) 推荐(0) 编辑

zookeeper介绍以及安装配置
摘要:Zookeeper启动时默认将Zookeeper.out输出到当前目录,不友好。改变位置有两种方法: 1:在当前用户下~/.bash_profile或在/etc/profile,添加ZOO_LOG_DIR变量。 export ZOO_LOG_DIR=/home/Hadoop/local/logs/z 阅读全文

posted @ 2014-12-24 17:31 星辰大海ゞ 阅读(724) 评论(0) 推荐(0) 编辑