Hadoop生态 - 随笔分类 - 王陸

Canal——Alibaba数据实时同步神器

摘要：第一章 Canal 入门 1.1 什么是 Canal 阿里巴巴 B2B 公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了同步杭州和美国异地机房的需求，从 2010 年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅&消费的业

2297

1

0

Hadoop——项目经验

摘要：一、HDFS存储多目录（1）给Linux系统新增加一块硬盘参考：https://www.cnblogs.com/yujianadu/p/10750698.html （2）生产环境服务器磁盘情况（3）在hdfs-site.xml文件中配置多目录，注意新挂载磁盘的访问权限问题 HDFS的DataN

288

0

Hadoop HA 高可用

摘要：第一章 HA 概述（1）所谓 HA（High Availablity），即高可用（7*24 小时不中断服务）。（2）实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制：HDFS 的 HA 和 YARN 的 HA。（3）NameNode 主要在以下两个方面影响 HD

186

0

Azkaban任务调度框架

摘要：第一章、Azkaban 概论 1.1 为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： Shell 脚本程序，Java 程序，MapReduce 程序、Hive 脚本等 2）各任务单元之间存在时间先后及前后依赖关系 3）为了很好地组织起这样的复杂执行计划，需要一个工作

1647

0

Flume 进阶

摘要：第一章 Flume 事务 Source向Channel推，Sink从Channel拉。第二章 Flume Agent 内部原理重要组件： ChannelSelector ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型，分别是 **Rep

110

0

Flume日志采集框架基础

摘要：第一章 Flume 概述日志收集面临的问题：数据源种类繁多数据源是物理分布的流式，不间断产生对可靠性有一定要求 1.1 Flume定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。 Flume基于流式架构，灵活简单。 Flume 采用了

667

0

Hadoop——Yarn

摘要：第一章 Yarn资源调度器思考： 1）如何管理集群资源？ 2）如何给任务合理分配资源？ Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.1 Yarn基础架构 YARN主要由Res

447

0

Zookeeper框架基础

摘要：第一章 Zookeeper 入门 1.1 概述在分布式系统中，服务（或组件）之间的协调是非常重要的，它构成了分布式系统的基础。 Zookeeper 是一个开源的分布式的，为分布式框架提供协调服务的 Apache 项目。 Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管

305

0

Hadoop——数据压缩

摘要：一、概述数据压缩能够通过一定的编码技术减少数据存储空间，是一种用CPU资源换取IO资源的优化技术。 1）压缩的好处和坏处压缩的优点：以减少磁盘IO、减少磁盘存储空间。压缩的缺点：增加CPU开销。 2）压缩原则运算密集型的Job，少用压缩 IO密集型的Job，多用压缩二、MR支持的压缩编码

198

0

Hadoop——MapReduce（概述、原理）

摘要：一、MapReduce概述 1.1 MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

1246

0

Hadoop——HDFS

摘要：第一章 HDFS概述 1.1 HDFS背景及定义 1）HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDF

439

0

Hadoop——运行环境搭建

摘要：第一章模板虚拟机环境准备选择安装VMware16作为虚拟机，具体安装和使用过程这里不再赘述。 1.1 安装模板虚拟机 IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G hadoop100虚拟机配置要求如下（本文Linux系统全部以CentOS-7.5-x86

778

0

1

Hadoop——概述

摘要：第1章 Hadoop概述 1.1 Hadoop是什么 1.2 Hadoop发展历史（了解） 1.3 Hadoop三大发行版本（了解） Hadoop三大发行版本：Apache、Cloudera、Hortonworks。 Apache版本最原始（最基础）的版本，对于入门学习最好。2006 Clouder

187

0

王陸

我可不是为了被全人类喜欢才活着的，只要对于某一个人来说我是必要的，我就能活下去。

随笔分类 - Hadoop生态

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

最新评论