2017 年 11月 3 日随笔档案 - 初见微凉i

2017年11月3日

摘要： Flume概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。 Flume主要由3个重要的组件购成： Source:完阅读全文

posted @ 2017-11-03 16:59 初见微凉i 阅读(244) 评论(0) 推荐(0) 编辑

flume+kafka+hdfs详解

摘要： flume架构图单节点flume配置 flume-1.4.0 启动flume -n表示配置文件中agent的名字 [java] view plain copy agent.sources = r1 agent.sinks = s1 agent.channels = c1 agent.sources 阅读全文

posted @ 2017-11-03 16:56 初见微凉i 阅读(2608) 评论(0) 推荐(0) 编辑

Flume日志收集

摘要：一、Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。设计目标： (1) 可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume 阅读全文

posted @ 2017-11-03 16:20 初见微凉i 阅读(380) 评论(0) 推荐(0) 编辑

Flume1.5.0入门：安装、部署、及flume的案例

摘要： Agent 使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。 Client 生产数据，运行在一个独立的线程。 Source 从Client收集数据，传递给Channel。 Sink 从Channel收集数据，运行在一个独立线程。阅读全文

posted @ 2017-11-03 16:02 初见微凉i 阅读(296) 评论(0) 推荐(0) 编辑

Flume架构以及应用介绍

摘要：在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。阅读全文

posted @ 2017-11-03 15:50 初见微凉i 阅读(282) 评论(0) 推荐(0) 编辑

Hadoop学习笔记系列文章导航

摘要：一、为何要学习Hadoop? 这是一个信息爆炸的时代。经过数十年的积累，很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一，怎样从累积的数据里寻找价值，变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据，如果求助于昂贵的专用主机甚至超级计阅读全文

posted @ 2017-11-03 11:43 初见微凉i 阅读(120) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

摘要：自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍，对Hadoop这个神奇的小象有了一个初步的了解，还对每次学习的内容进行了总结，也形成了我的一个博文系列《Hadoop学习笔记系列》。其实，早在2014年Hadoop2.x版本就已经开始流行了起来，并且已经成为了现在的主流。当然，阅读全文

posted @ 2017-11-03 11:42 初见微凉i 阅读(195) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—21.Hadoop2的改进内容简介

摘要： Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：（1）HDFS的NameNode可以以集群的方式布署，增强了NameNodes的水平扩展能力和高可用性，分别是:HDFS Fede 阅读全文

posted @ 2017-11-03 11:41 初见微凉i 阅读(233) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析

摘要：网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例（三）统计分阅读全文

posted @ 2017-11-03 11:41 初见微凉i 阅读(308) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗

摘要：网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例（二）数据清洗：当前页面网站日志分析项目案例（三）统计分析：http://www.cnblogs.com/edisonchou/p/446434 阅读全文

posted @ 2017-11-03 11:40 初见微凉i 阅读(424) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—19.Flume框架学习

摘要： START：Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统，日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称，泛指文件、操作记录等许多数据。一、Flume基础理论 1.1 常见的分布式日志收集系统 Scribe是facebook开源的日志收阅读全文

posted @ 2017-11-03 11:39 初见微凉i 阅读(260) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍

摘要：网站日志分析项目案例（一）项目介绍：当前页面网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例（三）统计分析：http://www.cnblogs.com/edisonchou/p/446434 阅读全文

posted @ 2017-11-03 11:39 初见微凉i 阅读(436) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—18.Sqoop框架学习

摘要：一、Sqoop基础：连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择，但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一阅读全文

posted @ 2017-11-03 11:38 初见微凉i 阅读(226) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—17.Hive框架学习

摘要：一、Hive：一个牛逼的数据仓库 1.1 神马是Hive？ Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称阅读全文

posted @ 2017-11-03 11:37 初见微凉i 阅读(370) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—15.HBase框架学习（基础实践篇）

摘要：一、HBase的安装配置 1.1 伪分布模式安装伪分布模式安装即在一台计算机上部署HBase的各个角色，HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。首先，准备好HBase的安装包，我这里使用的是HBase-0.94.7的版本，已经上传至百度网盘之中（U 阅读全文

posted @ 2017-11-03 11:36 初见微凉i 阅读(244) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—16.Pig框架学习

摘要：一、关于Pig：别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编阅读全文

posted @ 2017-11-03 11:36 初见微凉i 阅读(332) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—15.HBase框架学习（基础知识篇）

摘要： HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型，它存储的是松散型数据。一、HBase：BigTable的开源实现 1.1 HBase出现的背景（1）随着数阅读全文

posted @ 2017-11-03 11:35 初见微凉i 阅读(264) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—14.ZooKeeper环境搭建

摘要：从字面上来看，ZooKeeper表示动物园管理员，这是一个十分奇妙的名字，我们又想起了Hadoop生态系统中，许多项目的Logo都采用了动物，比如Hadoop采用了大象的形象，所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的。一、ZooKeeper基础介绍 1.1 动物园也要保障阅读全文

posted @ 2017-11-03 11:34 初见微凉i 阅读(296) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—13.分布式集群中节点的动态添加与下架

摘要：开篇：在本笔记系列的第一篇中，我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在，我们来了解一下在一个Hadoop分布式集群中，如何动态（不关机且正在运行的情况下）地添加一个Hadoop节点与下架一个Hadoop节点。一、实验环境结构本次试验，我们构建的集群是一个主节点，三个从节点的结构阅读全文

posted @ 2017-11-03 11:33 初见微凉i 阅读(241) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—12.MapReduce中的常见算法

摘要：一、MapReduce中有哪些常见算法（1）经典之王：单词计数这个是MapReduce的经典案例，经典的不能再经典了！（2）数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。阅读全文

posted @ 2017-11-03 11:32 初见微凉i 阅读(756) 评论(0) 推荐(0) 编辑

初见微凉i

公告