摘要: 一.什么是HDFSHDFS(Hadoop Distributed File System )Hadoop 分布式文件系统。 是基于流数据模式访问和处理超大文件的需求而开发的。HDFS思想就是分而治之再综合的过程,但是对于我们使用者来说是透明的,就像我们使用Windows的文件系统一样,只需要知道你要 阅读全文
posted @ 2020-07-14 11:01 USTC丶ZCC 阅读(703) 评论(0) 推荐(0) 编辑
摘要: 首先Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce明显的缺陷,但是二者也有不少的差异具体如下: MR是基于进程,spark是基于线程 Spark的多个task跑在同一个进程上,这个进程会伴随spark应用程序的整个生命周期,即使没有作业 阅读全文
posted @ 2020-07-14 10:39 USTC丶ZCC 阅读(741) 评论(0) 推荐(0) 编辑
摘要: 认知和学习Hadoop,我们必须得了解Hadoop的构成,下面通过Hadoop构件、大数据处理流程,Hadoop核心三个方面进行一下介绍: hadoop中有3个核心组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MAPREDUCE —— 实现在很多机 阅读全文
posted @ 2020-07-14 10:18 USTC丶ZCC 阅读(1066) 评论(0) 推荐(0) 编辑