作业二

1.了解对比Hadoop不同版本的特性，可以用图表的形式呈现。

DKhadoop发行版：成了整个hadoop生态系统的全部组件并且做了深度优化，重新编译成了一个完整的更高性能的大数据通用计算平台，实现了各部件的有机协调。

cloudera发行版：CDH是Cloudera的hadoop发行版，完全开源，比Apache hadoop在兼容性，安全性，稳定性上有增强。可提供 IoT 级数据流和复杂事件的实时状态处理。是一个全面的边缘计算到云实时流数据平台。作为 CDF 的关键支柱之一，流处理和分析对于处理来自各种数据源的数百万个数据点和复杂事件非常重要。

hortonworks发行版：Hortonworks 的主打产品是Hortonworks Data Platform (HDP)，也同样是100%开源的产品，其版本特点：HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便，HDP包括一个现代化的，直观的用户界面的安装和配置工具。

2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系，以图例加文字描述呈现。

3.官网学习Hadoop的安装与使用，用文档的方式列出步骤与注意事项。

目的

本文档介绍了如何设置和配置单节点Hadoop安装，以便您可以使用Hadoop MapReduce和Hadoop分布式文件系统（HDFS）快速执行简单的操作。

先决条件

支持平台

支持GNU / Linux作为开发和生产平台。Hadoop在具有2000个节点的GNU / Linux集群上得到了证明。

Windows也是受支持的平台，但是以下步骤仅适用于Linux。要在Windows上设置Hadoop，请参见wiki页面。

必备软件

Linux所需的软件包括：

必须安装Java™。HadoopJavaVersions中描述了推荐的Java版本。

如果要使用可选的启动和停止脚本，则必须安装ssh并且必须运行sshd才能使用管理远程Hadoop守护程序的Hadoop脚本。另外，建议也安装pdsh以便更好地进行ssh资源管理。

安装软件

如果您的群集没有必需的软件，则需要安装它。

例如在Ubuntu Linux上：

$ sudo apt-get install ssh

$ sudo apt-get install pdsh

下载

要获得Hadoop发行版，请从Apache下载镜像之一下载最新的稳定版本。

准备启动Hadoop集群

解压缩下载的Hadoop发行版。在发行版中，编辑文件etc / hadoop / hadoop-env.sh以定义一些参数，如下所示：

＃设置为Java安装的根目录

导出JAVA_HOME = / usr / java / latest

尝试以下命令：

$ bin / hadoop

这将显示hadoop脚本的用法文档。

现在，您可以以三种支持的模式之一启动Hadoop集群：

本地（独立）模式

伪分布式模式

全分布式模式

独立运行

默认情况下，Hadoop被配置为在非分布式模式下作为单个Java进程运行。这对于调试很有用。

下面的示例复制解压缩的conf目录以用作输入，然后查找并显示给定正则表达式的每个匹配项。输出被写入给定的输出目录。

$ mkdir输入

$ cp etc / hadoop / *。xml输入

$ bin / hadoop jar share / hadoop / mapreduce / hadoop-mapreduce-examples-3.2.1.jar grep输入输出'dfs [az。] +'

$ cat输出/ *

Hadoop生态的组成、每个组件的作用、组件之间的相互关系，以图例加文字描述呈现。

posted @ 2020-09-19 20:33 吴铨兴阅读(154) 评论(0) 收藏举报

刷新页面返回顶部

吴铨兴

作业二

公告