Fork me on GitHub

随笔分类 -  大数据

摘要:一、Spark介绍 1.1 Apache Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架(没有数据存储)。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 1.2 Hadoop和Spark Hadoop常 阅读全文
posted @ 2017-09-21 08:55 暴走小骚年 阅读(598) 评论(0) 推荐(0) 编辑
摘要:本节内容: 环境规划 配置集群各节点hosts文件 安装JDK1.7 安装依赖包ssh和rsync 各节点时间同步 安装Zookeeper集群 添加Hadoop运行用户 配置主节点登录自己和其他节点不需要输入密码 安装hadoop 启动hadoop 停止hadoop 一、环境规划 由于机器资源紧张, 阅读全文
posted @ 2017-08-14 16:38 暴走小骚年 阅读(2830) 评论(0) 推荐(0) 编辑
摘要:本节内容: Hadoop版本 安装部署Hadoop 一、Hadoop版本 1. Hadoop版本种类 目前Hadoop发行版非常多,有华为发行版、Intel发行版、Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apach 阅读全文
posted @ 2017-08-11 11:33 暴走小骚年 阅读(2290) 评论(0) 推荐(0) 编辑
摘要:本节内容: Flume简介 Flume NG核心组件 Flume部署种类 Flume单机安装 一、Flume简介 Flume是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据的简单处理,并写到各种数据接收方的能力。 Flume在0. 阅读全文
posted @ 2017-08-03 20:53 暴走小骚年 阅读(1775) 评论(0) 推荐(0) 编辑
摘要:本节内容: Apache Storm是什么 Apache Storm核心概念 Storm原理架构 Storm集群安装部署 启动storm ui、Nimbus和Supervisor 一、Apache Storm是什么 Apache Storm是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数据 阅读全文
posted @ 2017-07-29 21:40 暴走小骚年 阅读(27324) 评论(0) 推荐(3) 编辑
摘要:本节内容: Elasticsearch介绍 Elasticsearch集群安装部署 Elasticsearch优化 安装插件:中文分词器ik 一、Elasticsearch介绍 Elasticsearch是一个分布式搜索服务,提供Restful API,底层基于Lucene,采用多shard的方式保 阅读全文
posted @ 2017-07-23 15:37 暴走小骚年 阅读(5112) 评论(0) 推荐(0) 编辑
摘要:本节内容: RabbitMQ介绍 RabbitMQ运行原理 RabbitMQ重要术语 三种ExchangeType RabbitMQ集群种类 集群基本概念 镜像模式部署集群 一、RabbitMQ介绍 消息系统通过将消息的发送和接收分离来实现应用程序的异步和解偶。或许你正在考虑进行数据投递,非阻塞操作 阅读全文
posted @ 2017-07-16 16:00 暴走小骚年 阅读(1240) 评论(0) 推荐(0) 编辑
摘要:本节内容: 消息中间件 消息中间件特点 消息中间件的传递模型 Kafka介绍 安装部署Kafka集群 安装Yahoo kafka manager kafka-manager添加kafka cluster 一、消息中间件 消息中间件是在消息的传输过程中保存消息的容器。消息中间件在将消息从消息生产者到消 阅读全文
posted @ 2017-07-15 10:34 暴走小骚年 阅读(35513) 评论(18) 推荐(17) 编辑
摘要:本节内容: Zookeeper介绍 Zookeeper特点 Zookeeper应用场景 用到了Zookeeper的一些系统 Zookeeper集群安装部署 一、Zookeeper介绍 是一个针对大型分布式系统的可靠协调系统; 提供的功能包括:配置维护、名字服务、分布式同步、组服务等; 目标就是封装好 阅读全文
posted @ 2017-07-06 14:28 暴走小骚年 阅读(15672) 评论(0) 推荐(1) 编辑