随笔分类 -  Hadoop系列

分布式集群,包含hdfs、yarn和mapreduce
摘要:1. 概述 Kerberos是一种认证机制。 目的是,通过密钥系统为客户端/服务器应用程序提供强大的认证系统:保护服务器防止错误的用户使用,同时保护它的用户使用正确的服务器,即支持双向验证;Kerberos协议的整个认证过程实现不依赖于主机操作系统的认证,无需基于主机地址的信任,不要求网络上所有主机 阅读全文
posted @ 2020-07-14 19:09 牧梦者 阅读(18478) 评论(0) 推荐(1) 编辑
摘要:1. 五种主流的大数据架构 1.1 传统大数据架构 之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经 阅读全文
posted @ 2019-07-16 23:11 牧梦者 阅读(11500) 评论(0) 推荐(2) 编辑
摘要:1. 概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台;而MapReduce等运算程序则相当运行于操作系统之上的应用程序。 2. YARN的重要概念 1、yarn并不清楚用户提交的程序的运行机制;2、yarn只提供运算资源的调度(用户程序向yarn申 阅读全文
posted @ 2018-04-30 03:13 牧梦者 阅读(824) 评论(0) 推荐(0) 编辑
摘要:1. 概述 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 1.1 MapReduce的诞生背景 背景原因 阅读全文
posted @ 2018-04-29 17:53 牧梦者 阅读(1364) 评论(0) 推荐(1) 编辑
摘要:1. HDFS的基本概念和特性 设计思想——分而治之:将大文件、大批量文件分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,....)提供数据存储服务。 1.1 HDFS的概念 首先,它是一 阅读全文
posted @ 2018-04-07 03:34 牧梦者 阅读(1978) 评论(0) 推荐(1) 编辑
摘要:1. 下载Hadoop 1.1 官网下载Hadoop http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz 打开上述链接,进入到下图,可以随意下载一个完整的hadoop-2.9.0版本, 阅读全文
posted @ 2017-11-25 18:15 牧梦者 阅读(3232) 评论(0) 推荐(0) 编辑