大数据笔记Hadoop

XSheel7远程连接工具

 

 

 远程上传下载文件Xftp7 

 

 

 

 

 ==========

 

 

 

 

 

 

 

 

 

 

 

 

001 大数据概念

1: 大数据(big data):值无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产.

2:数据存储单元:bit, Byte,KB,MB, GB, TB,PB,EB,ZB,YB,BB,NB,DB.

1Byte = 8bit 

1KB = 1024 Byte

1MB = 1024KB

1G = 1024M

1T = 1024G

1P = 1024T

3:大数据主要解决数据的存储和海量数据的分析计算问题.

 

002 大数据特点

1:Volume (大量)--数据量更大

2:Velocity(高速)--数据量增长速度快,互联网技术普及,手机活跃用户量,抖音,快手,等小视频

3:Variety(多样):相对于以往便于存储的以数据/文本为主的结构化数据,非结构化数据越来越多,包括网络日志,音频,视频,图片,地理位置信息等

4:Value(低价值密度)--价值密度的高低与数据总量的大小成反比.--是否能够快速的对有价值的数据进行"提纯"愈来愈重要.

 

003 大数据应用场景

1 仓储物流

2 零售 经典案例(啤酒+纸尿裤)

3 旅游

4 商品推荐广告

5 保险

6 金融

7 房地产

8 环保

9 人工智能

 

004 大数据发展前景

1 政策支持

2 人才缺口大

3 大学开设相关专业(知网关于大数据方面的论文从理论->偏实际应用方面)

4 薪资待遇高

 

005 大数据部门业务流程

1 产品人员提需求(统计总用户数,日活跃用户数,回流用户数等)-->

2 数据部门搭建数据平台,分析数据指标

3 数据可视化(报表展示,邮件发送,大屏幕展示等)

 

006 大数据部门组织结构(重点)

 

007 Hadoop是什么

1:Hadoop是一个由Apache基金会所开发的分布式系统基础架构

2:主要解决,海量数据的存储和海量数据的分析计算问题.

3:广义上来说, Hadoop通常是指一个更广泛的概念---Hadoop生态圈.

 

008 Hadoop发展历史

--请参看网络--

创始人:Doug Cutting

三大论文:

GFS-->HDFS

Map-Reduce--->MR

BigTable-->HBase

 

009 Hadoop三大发行版本

Hadoop三大发行版本 Apache,Cloudera,Hortonworks.

Apache 版本最原始,最基础,对入门学习最好

Apache Hadoop

官网地址:http://hadoop.apache.org/

下载地址:http://archive.apache.org/dist/hadoop/common/

 

 

11

下载网址:http://archive.apache.org/dist/hadoop/common/

 

010 Hadoop优势(4高)

1 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失.

2 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点

3 高效性:在MapReduce思想下,Hadoop是并行工作的,以加快任务处理速度.

高容错性:能够自动将失败的任务重新分配.

 

Hadoop组成(面试重点)

011 Hadoop1.x和Hadoop2.x的区别

解耦

Hadoop1.x组成: MapReduce(计算+资源调度);HDFS(数据存储);Common(辅助工具);

Hadoop2.x组成:MapReduce(计算);Yarn(资源调度); HDFS(数据存储); Common(辅助工具);

在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop2.x时代,增加了Yarn.Yarn只负责资源的调度,MapReduce只负责运算.----解耦

 

 

012 HDFS架构概述

1:NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(文件生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等.

2:DataNode(dn):在本地文件系统存储文件块数据,以及数据的效验和.

3:Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照.

简答记:NameNode存储的是目录,DataNode存储的是具体数据,Secondary NameNode是用来辅助NameNode的.

 

 

103 YARN架构概述

1 ResourceManager(RM)主要作用

  1. 处理客户请求
  2. 监控NodeManager
  3. 启动或监控ApplicationMaster
  4. 资源的分配与调度

2 NodeManager(NM)主要作用如下

  1. 管理单个节点
  2. 处理来自ResourceManager的命令
  3. 处理来自ApplicationMaster的命令

3 ApplicationMaster(AM)作用如下

  1. 负责数据的切分
  2. 为应用程序申请资源并分配给内部的任务
  3. 任务的监控与容错

4 Container

  1. Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存,CPU,磁盘,网络等. 

 

104 MapReduce架构概述

MapReduce 将计算过程分为两个阶段:Map和Reduce

  1. Map阶段并行处理输入数据
  2. Reduce阶段对Map结果进行汇总

105 大数据技术生态体系

 

 016 推荐系统框架

 

 

第三章 Hadoop运行环境搭建

017 虚拟机环境准备

018 安装JDK

019 安装Hadoop

020 Hadoop目录结构

 

第四章 Hadoop运行模式

本地运行模式

Local (Standalone) Mode

021 官方Grep案例  检索  

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

022 官方WordCount案例

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

 

伪分布式运行模式 Pseudo-Distributed Operation

022 启动HDFS并运行MapReduce程序

Configuration

Use the following:

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>


----不要频繁的格式操作.

格式化NameNode(第一次启动时格式化,以后就不要总格式化)

再次格式化之前,先查看jps 查看进程是否全部关闭,确保关闭后---然后删除data和logs目录

 

posted @ 2021-06-05 15:11  I_PENCIL  阅读(36)  评论(0编辑  收藏  举报