写给自己的话
我虽然是个计算机专业的工科男,但技术是真的不咋地(我自己觉得),越是要离开学校温暖的被窝就越能感觉到学一些东西的紧迫性,不同于学校教给我的套路,我打算自学Hadoop与Linux,希望自己能够不断进取,精进技术,最终能成为一代大神(小神也凑合)。
关于Hadoop
其实在这之前我对Hadoop算是一无所知吧,只是有所耳闻,对于我们平常认识一件新事物的“三板斧”——他到底是什么、做什么、怎么用,我完全没有概念。谋定而动,胜在不懈,我会认真的对待这只欢乐的小象。
Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”Hadoop的发音是 [hædu:p]。
那么Hadoop到底是个什么呢?Hadoop是一个由Apache基金会所开发的分布式系统基础架构,百度百科这么说(Hadoop是一个基础架构,我所认识的一些刚接触计算机的小伙伴在看到某个英文单词的时候,第一反应就是这是哪种编程语言,计算机的世界绝对不只是编程语言。)。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
项目起源
Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。
发展历程
Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。
目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。