My Github

Hadoop入门学习总结系列文章目录

一、为何要学习Hadoop?

　　这是一个信息爆炸的时代。经过数十年的积累，很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一，怎样从累积的数据里寻找价值，变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据，如果求助于昂贵的专用主机甚至超级计算机，成本无疑很高，有时即使是保存数据，也需要面对高成本的问题，因为具有海量数据容量的存储设备，价格往往也是天文数字。成本和IT能力成为了海量数据分析的主要瓶颈。

　　Hadoop这个开源产品的出现，打破了对数据力量的压制。Hadoop源于Nutch这个小型的搜索引擎项目。而Nutch则出自于著名的开源搜索引擎解决方案Lucene，而Lucene则来源于对Google的学习模仿。在Hadoop身上有着明显的Google的影子。HDFS是GFS的山寨版，Map-Reduce的思想来源于Goolge对Page rank的计算方法，HBase模仿的是Big Table，Zookeeper则学习了Chubby。Google巨人的力量尽管由于商业的原因被层层封锁，但在Hadoop身上得到了完美的重生和发展。

　　从2006年Apache基金会接纳Hadoop项目以来。Hadoop已经成为云计算软件的一个事实标准，以及开源云计算解决方案的几乎唯一选择。对于想用低成本（包括软硬件）实现云计算平台或海量数据分析平台的用户，Hadoop集群是首选的对象。由于Hadoop在各方面都打破了传统关系型数据库的思路和模式，对于新接触Hadoop平台的人，往往会觉得困惑和难以理解，进而转化为畏惧。

　　因此，为了赶上大数据时代的发展，迎接云计算的思维，尽管我做的是.NET的应用开发工作，但我仍然选择业余时间学习Hadoop。我会从Hadoop1.x版本开始学习经典的HDFS与MapReduce，然后了解Hadoop2.x版本与老版本的差异，熟悉一些常见的Hadoop应用场景，并学着实践一个最经典的项目（网站日志数据分析案例）来完成我给自己规划的学习任务。

二、Hadoop笔记系列索引

2.1 基础环境部分：

　　（1）基础介绍与环境搭建

　　（6）Hadoop Eclipse插件的使用

　　（13）分布式集群中节点的动态添加与下架

2.2 HDFS部分：

　　（2）不怕故障的海量存储之HDFS基础入门

　　（3）Hadoop RPC机制的使用

2.3 MapReduce部分：

　　（4）初识MapReduce

　　（5）自定义类型处理手机上网日志

　　（7）计数器与自定义计数器

　　（8）Combiner与自定义Combiner

　　（9）Partioner与自定义Partitioner

　　（10）Reduce阶段中的Shuffle过程

　　（11）MapReduce中的排序和分组

　　（12）MapReduce中的常见算法

2.4 ZooKeeper部分：

　　（14）ZooKeeper环境搭建

2.5 HBase部分：

　　（15）HBase框架学习之基础知识篇

　　（15）HBase框架学习之基础实践篇

2.6 Pig部分：

　　（16）Pig框架学习

2.7 Hive部分：

　　（17）Hive框架学习

2.8 Sqoop部分：

　　（18）Sqoop框架学习

2.9 Flume部分：

　　（19）Flume框架学习

2.10 项目实战部分：

　　（20）网站日志分析项目（一）项目介绍

　　（20）网站日志分析项目（二）数据清洗

　　（20）网站日志分析项目（三）统计分析

2.11 Hadoop2部分：

　　（21）Hadoop2的改进内容简介

　　（22）Hadoop2.x环境搭建与配置

　　

作者：周旭龙

出处：http://www.cnblogs.com/edisonchou/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接。

posted @ 2015-04-20 00:15 EdisonZhou 阅读(14581) 评论(9) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构