Hadoop学习总结【第一篇】：Hadoop简介

Hadoop介绍

　　Hadoop是什么：Hadoop是一个开发和运行处理大规模数据的软件平台，是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。

　　Hadoop框架中最核心设计就是：HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。

　　特点：开源、可靠、分布式、可伸缩

　　提供功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理

Hadoop运行模式

1）独立模式（本地模式）

无需运行任何守护进程，所有程序都在同一个JVM上执行。在独立模式下测试和调整MapReduce程序很方便，因此该模式在开发阶段比较合适。

2）伪分布式模式

　　Hadoop守护进程运行在本地机器上，模拟一个小规模集群

3）全分布模式

Hadoop守护进程运行在一个集群上

Hadoop组件

　　Apache Hadoop 项目有两个核心组件，被称为 Hadoop 分布式文件系统 (Hadoop Distributed File System, HDFS) 的文件存储，以及被称为 MapReduce 的编程框架。有一些支持项目充分利用了 HDFS 和 MapReduce。

HDFS：如果您希望有4000 多台电脑处理您的数据，那么最好将您的数据分发给 4000 多台电脑。HDFS 可以帮助您做到这一点。HDFS 有几个可以移动的部件。Datanodes 存储数据，Namenode 跟踪存储的位置。还有其他部件，但这些已经足以使您开始了。

MapReduce：这是一个面向 Hadoop 的编程模型。有两个阶段，毫不意外，它们分别被称为 Map 和 Reduce。如果希望给您的朋友留下深刻的印象，那么告诉他们，Map 和 Reduce 阶段之间有一个随机排序。JobTracker 管理您的 MapReduce 作业的 4000 多个组件。TaskTracker 从 JobTracker 接受订单。如果您喜欢 Java，那么用 Java 编写代码。如果您喜欢 SQL 或 Java 以外的其他语言，您的运气仍然不错，您可以使用一个名为 Hadoop Streaming 的实用程序。

Hadoop Streaming：一个实用程序，在任何语言（C、Perl 和 Python、C++、Bash 等）中支持 MapReduce 代码。示例包括一个 Python 映射程序和一个 AWK 缩减程序。

Hive 和 Hue：如果您喜欢 SQL，您会很高兴听到您可以编写 SQL，并使用 Hive 将其转换为一个 MapReduce 作业。不，您不会得到一个完整的 ANSI-SQL 环境，但您的确得到了 4000 个注释和多 PB 级的可扩展性。Hue 为您提供了一个基于浏览器的图形界面，可以完成您的 Hive 工作。

Pig: 一个执行 MapReduce 编码的更高层次的编程环境。Pig 语言被称为 Pig Latin。您可能会发现其命名约定有点不合常规，但是您会得到令人难以置信的性价比和高可用性。

Sqoop：在 Hadoop 和您最喜爱的关系数据库之间提供双向数据传输。

Oozie：管理 Hadoop 工作流。这并不能取代您的调度程序或 BPM 工具，但它在您的 Hadoop 作业中提供 if-then-else 分支和控制。

HBase：一个超级可扩展的键值存储。它的工作原理非常像持久的散列映射（对于 Python 爱好者，可以认为是词典）。尽管其名称是 HBase，但它并不是一个关系数据库。

FlumeNG：一个实时的加载程序，用来将数据流式传输到 Hadoop 中。它将数据存储在 HDFS 和 HBase 中。您会希望从 FlumeNG 开始，因为它对原始的水槽有所改进。

Whirr：面向 Hadoop 的云配置。您可以在短短几分钟内使用一个很短的配置文件启动一个集群。

Mahout：面向 Hadoop 的机器学习。用于预测分析和其他高级分析。

Fuse：让 HDFS 系统看起来就像一个普通的文件系统，所以您可以对 HDFS 数据使用 ls、rm、cd 和其他命令。

Zookeeper：用于管理集群的同步性。您不需要为 Zookeeper 做很多事情，但它在为您努力工作。如果您认为自己需要编写一个使用 Zookeeper 的程序，您要么非常非常聪明，并且可能是 Apache 项目的一个委员会，要么终将会有过得非常糟糕的一天。

国内外应用案例

1、Hadoop应用于书记服务基础平台建设

2、用于用户画像

3、用于网站点击日志数据挖掘

大数据分析流程

案例名称

　　web日志数据挖掘

项目需求描述

　　“Web点击流日志”包含着网站运营很重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页最有价值，广告转化率、访客的来源信息，访客的终端信息等。

　　一般中型的网站(10W的PV以上)，每天会产生1G以上Web日志文件。大型或超大型的网站，可能每小时就会产生10G的数据量。
　　具体来说，比如某电子商务网站，在线团购业务。每日PV数100w，独立IP数5w。用户通常在工作日上午10:00-12:00和下午15:00-18:00访问量最大。日间主要是通过PC端浏览器访问，休息日及夜间通过移动设备访问较多。网站搜索浏量占整个网站的80%，PC用户不足1%的用户会消费，移动用户有5%会消费。

数据来源

　　可以采用浏览器潜入指定js程序监听用户点击事件通过ajax方式将相关信息吐到后端服务器上写入到服务器日志

数据处理流程图