Hadoop从初生到笨鸟(1)与Hadoop的第一次接触
起源
原因:数据量越来越大
启发:Google公司发布大数据技术,包含MapReduce、BigTable、GFS,优点在于
-
不用去花费大的成本买高配机;
-
硬件故障变成常态,通过软件保证可靠性;
-
简化并行分布式计算,无需控制节点同步和数据交换。
但是Google并没有进行开源,所以就有了模仿Google大数据技术的Hadoop。
关键字
Hadoop主要包含以下关键技术
- HDFS:分布式文件系统
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。这个项目的地址是http://hadoop.apache.org/core/。
- MapReduce:框架
Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。
- Hadoop家族产品
Hadoop的业务处理和其他工具