大数据技术与Hadoop集群部署

大数据技术概述

大数据简介

大数据技术是一组用于处理、存储和分析大规模数据集的技术和工具。随着数字化时代的到来，数据量的爆炸性增长使得传统的数据处理和分析方法变得不够高效，因此大数据技术应运而生。

大数据技术的主要特点包括：

处理海量数据、并行处理、实时处理、多样化数据源、可伸缩性；
大数据技术提供的思路是分而治之与移动计算而非移动数据，使得海量数据的存储与计算变得更加高效和可靠。

Hadoop简介

Hadoop的核心组件主要包括HDFS、YARN和MapReduce，它们共同构成了Hadoop生态系统的基础。

Hadoop分布式文件系统（HDFS）：HDFS是Hadoop的分布式文件系统，用于存储大规模数据集。它具有高容错性、高可靠性和高可扩展性的特点，通过将数据分割成多个块并在集群中多个节点上存储多个副本来实现这些特点。HDFS的设计旨在适应常见的硬件故障，并提供了对大文件的高吞吐量访问。
YARN（Yet Another Resource Negotiator）：YARN是Hadoop的资源管理器，负责管理和分配集群中的资源，以供不同类型的应用程序使用。它通过资源管理和作业调度，为Hadoop集群中的应用程序提供资源。YARN的出现使得Hadoop集群能够运行不仅限于MapReduce的各种计算框架和应用程序，如Apache Spark、Apache Flink等。
MapReduce：MapReduce是Hadoop最早的分布式计算框架，用于并行处理大规模数据集。它由两个主要阶段组成：Map阶段和Reduce阶段。在Map阶段，数据被分割成多个片段并在各个节点上进行并行处理；在Reduce阶段，将Map阶段输出的中间结果合并和汇总，生成最终的输出结果。尽管现在有更多的高级数据处理框架可供选择，但MapReduce仍然是Hadoop生态系统的一个重要组件。

这三个组件一起构成了Hadoop生态系统的基础，为大规模数据处理提供了可靠、高效的解决方案。

hadoop安装&hadoop-env配置

1.hadoop(HDFS)安装
解压hadoop-2.6.0-cdh5.15.1.tar.gz至app

tar -zxvf hadoop-2.6.0-cdh5.15.1.tar.gz -C ~/app/

2.修改hadoop-env.sh

cd 
cd app/hadoop-2.6.0-cdh5.15.1/
cd etc/hadoop
vi hadoop-env.sh

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_152

HDFS格式化

1.core-site.xml

cd 
cd app/hadoop-2.6.0-cdh5.15.1/
vi etc/hadoop/core-site.xml

添加如下配置：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://left-Lenovo:8020</value>
    </property>
</configuration>

2.hdfs-site.xml

cd 
cd app/hadoop-2.6.0-cdh5.15.1/
vi etc/hadoop/hdfs-site.xml

添加如下配置：

<configuration>
   <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
	
	<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/app/tmp</value>
     </property>
</configuration>

3.slaves从节点信息配置：

cd 
cd app/hadoop-2.6.0-cdh5.15.1/
vi etc/hadoop/slaves

4.配置hadoop环境变量

vi ~/.bash_profile
/home/hadoop/app/hadoop-2.6.0-cdh5.15.1

添加如下配置：

export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.15.1
export PATH=$HADOOP_HOME/bin:$PATH

生效环境变量：
source ~/.bash_profile

5.启动HDFS

HDFS格式化
第一次执行的时候一定格式化文件系统，不要重复执行

cd $HADOOP_HOME/bin
hdfs namenode -format

启动HDFS

cd $HADOOP_HOME/sbin
./start-dfs.sh

验证：
jps
出现如下信息则成功：

7922 Jps
7764 SecondaryNameNode
7561 DataNode
7454 NameNode

此外，也可使用HDFS的webui验证是否成功

HDFS可视化界面

HDFS提供了Web管理界面，可以很方便地查看HDFS相关信息。在浏览器地址栏中输入http://node01:50070，这里将node01替换为第1台节点的IP，就可以进入HDFS的Web管理界面。
在HDFS的Web管理界面中，包含了“Overview”、“Datanodes”、“Datanode Volume Failures”、“Snapshot”、“Startup Progress”和“Utilities”等菜单选项，点击每个菜单选项可以进入相应的管理界面，查询各种详细信息。
Utilities工具中有Browse the file system可以直观查看HDFS文件。