摘要: 一。MapReduce概念 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 1.1 为什么要MapRedu 阅读全文
posted @ 2019-06-11 23:47 Python++ 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 一。 HDFS概念 1.1 概念 HDFS是一个分布式文件系统,用于存储文件,通过目录树来定位文件,适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 1.2 组成 1)HDFS集群包括,NameNode和DataNode以及Secondary Namen 阅读全文
posted @ 2019-06-11 01:23 Python++ 阅读(534) 评论(0) 推荐(0) 编辑