大数据基础了解-(基础01)
5.1 什么是大数据
基于大数据的特点及问题,传统的技术和工具已经无法对其进行处理,因此,与大数据的收集,存储,分析,计算相关的Hadoop生态系统应运而生.
5.2 Hadoop生态系统
Hadoop是有Apache基金会开发的分布式系统基础架构,是分布式集群服务器上存储海量数据并运行分布式分析应用的一个开源软件框架,具有可靠性,高效性,高容错性及高拓展特点,
Hadoop生态系统是数据源层到数据应用层经过多个Hadoop生态圈组件的处理,这些组件的产生解决了海量数据的收集,存储,分析,计算问题.
Hadoop框架最核心的设计就是Hadoop分布式文件系统(HDFS),和MapReduce.[HDFS为海量数据提供了数据存储服务MapReduce为海量数据提供了计算服务 ] 下面我们一次介绍HDFS,MapReduce,hive,HBASE,storm,flink,等组件
5.2.1 HDFS
Hadoop实现了一个分布式文件系统,(HDFS),它提供高吞吐量来访问应用程序的数据,适合那些有超大数据集的应用程序.
1.HDFS架构
2:Hadoop shell 命令与 shell命令相似:
例如:cat,chgrp,chmod,chown,du,ls,mkdir,rm,stat,tail,mv,cp等...
有区别的命令如:
text,touchz,get,getmerge,put,copyfromlocal,copytolocal,movefromlocal,expunge 使用方法如下: