摘要: HDFS分布式文件系统 1️⃣、HDFS的概述 1.1、HDFS产出背景及定义 1)HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,==迫切需要一种系统来管理多台机器上的文件,==这就是分布式文件管理系统。==HDFS只是分布式文件管理系统 阅读全文
posted @ 2023-03-19 14:05 ExpiredSaury 阅读(40) 评论(0) 推荐(0) 编辑
摘要: MapReduce 1️⃣、MapReduce概述 1.1、MapReduce定义 MapReduce是一个==分布式运算程序==的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是==将用户编写的业务逻辑代码和自带默认组件==整合成一个完整的==分布式运算程序==,并发运 阅读全文
posted @ 2023-03-19 14:03 ExpiredSaury 阅读(27) 评论(0) 推荐(0) 编辑
摘要: Yarn资源调度 1)如何管理集群资源? 2)如何给任务合理分配资源? ==Yarn==是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的==操作系统平台==,而==MapReduce==等运算程序则相当于运行于==操作系统之上的应用程序。== 1.1、Yarn基础架构 YARN主要由Resou 阅读全文
posted @ 2023-03-19 14:00 ExpiredSaury 阅读(49) 评论(0) 推荐(0) 编辑
摘要: Hadoop入门 1️⃣、Hadoop概述 1.1、Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构 主要解决 海量数据的==存储==和海量数据的==分析计算==问题 广义上来说,Hadoop通常是指一个更广泛的概念 Hadoop生态圈== 发展史: 1.2、三大发行版本 Hado 阅读全文
posted @ 2023-03-19 13:57 ExpiredSaury 阅读(35) 评论(0) 推荐(0) 编辑
摘要: Hive 1️⃣、Hive入门 1.1、什么是Hive 1)Hive出现原因 FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了hive这门技术,并继续发展成为一个成功的Apache项目。 2)Hive简介 ​ hive是一个构建在Hadoop上的数据仓库 阅读全文
posted @ 2023-03-19 13:51 ExpiredSaury 阅读(31) 评论(0) 推荐(0) 编辑