公告

一个小白的进击之路——Hadoop开篇

Posted on 2017-02-23 15:11 柚子先生阅读(392) 评论(0) 编辑收藏举报

写给自己的话

　　我虽然是个计算机专业的工科男，但技术是真的不咋地（我自己觉得），越是要离开学校温暖的被窝就越能感觉到学一些东西的紧迫性，不同于学校教给我的套路，我打算自学Hadoop与Linux，希望自己能够不断进取，精进技术，最终能成为一代大神（小神也凑合）。

关于Hadoop

　　其实在这之前我对Hadoop算是一无所知吧，只是有所耳闻，对于我们平常认识一件新事物的“三板斧”——他到底是什么、做什么、怎么用，我完全没有概念。谋定而动，胜在不懈，我会认真的对待这只欢乐的小象。

　　Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。小孩子恰恰是这方面的高手。”Hadoop的发音是 [hædu:p]。

　　那么Hadoop到底是个什么呢？Hadoop是一个由Apache基金会所开发的分布式系统基础架构，百度百科这么说（Hadoop是一个基础架构，我所认识的一些刚接触计算机的小伙伴在看到某个英文单词的时候，第一反应就是这是哪种编程语言，计算机的世界绝对不只是编程语言。）。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

项目起源

　　Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。

　　Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。例如，如果您要 grep 一个 10TB 的巨型文件，会出现什么情况？在传统的系统上，这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题，采用并行执行机制，因此能大大提高效率。

发展历程

　　Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关，迅速发展成为分析大数据的领先平台。

　　目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司，该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司，在2012年，该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司，同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。

刷新页面返回顶部