摘要: 1.HDFS前言 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点概念:文件切块,副本存放,元数据 2.HDFS的 阅读全文
posted @ 2018-09-05 16:55 夕阳如火 阅读(992) 评论(0) 推荐(0) 编辑
摘要: 1. HADOOP背景介绍 1.1 什么是HADOOP Hadoop hive hbase flume kafka sqoop spark flink ……. 1.2 HADOOP产生背景 ——分布式文件系统(GFS),可用于处理海量网页的存储 ——分布式计算框架MAPREDUCE,可用于处理海量网 阅读全文
posted @ 2018-09-05 11:24 夕阳如火 阅读(781) 评论(0) 推荐(1) 编辑