haoop笔记

8:00 2019/3/141：什么是hadoop?
hadoop是解决大数据问题的一整套技术方案

2：hadoop的组成?
核心框架
分布式文件系统
分布式计算框架
分布式资源分配框架
hadoop对象存储
机器计算

3：hadoop 云计算 大数据  微服务  人工智能关系
参见word学习文档
1.    现阶段，云计算的两大底层支撑技术为“虚拟化”和“大数据技术”

2.    而HADOOP则是云计算的PaaS层的解决方案之一，并不等同于PaaS，更不等同于云计算本身。

4：大数据项目的通常结构
采集数据
数据分析统计
数据展示


5：大数据项目的通常技术架构
见画图


Hadoop Common: 
    为其他Hadoop模块提供基础设施。
 Hadoop DFS:
     一个高可靠、高吞吐量的分布式文件系统
 Hadoop MapReduce:
     一个分布式的离线并行计算框架
 Hadoop YARN:
    一个新的MapReduce框架，任务调度与资源管理





6：安装一个伪分布式的hdfs
a:准备安装介质
hadoop-2.8.2.tar.gz
b:把安装介质上传到linux
c:在linux使用hostname命令确认主机名
d:编辑/etc/hosts文件 完成ip地址和主机名的映射
在分布式的每一台机器中都需要把所有机器的ip地址和主机名的映射关系配置

注意:关闭每台机器的防火墙
systemctl stop firewalld.service 关闭
systemctl disable firewalld.service  禁止开机启动
e:配置ssh免密码登录
f:从/export/software/下面把hadoop-2.8.2.tar.gz 解压到/export/servers/下
常用目录说明:
bin sbin hadoop常用的命令目录  配置到/etc/profile中
etc hadoop常用配置文件目录
share hadoop核心jar包目录
g:完成配置文件
hadoop-env.sh  配置java环境
core-site.xml  hadoop核心配置
hdfs-site.xml  hdfs核心配置
mapred-site.xml  mr的核心配置
yarn-site.xml  yarn的核心配置
h:格式化namenode环境
创建namenode保存数据的环境
hdfs namenode -format
i:使用命令启动hdfs
start-dfs.sh  
start-yarm.sh
执行完成回到命令行
可以使用jps查看关键进程是否已经在运行
namenode
SecondaryNameNode
datanode

还要从web页面使用http连接管理页面查看
http://192.168.21.134:50070  可以看到hdfs的管理页面  证明hdfs安装并启动成功
http://192.168.21.134:8088 可以看到mr计算任务的管理页面  证明mr yarn安装并启动成功


注意事项:
a:如果某个进程没有正确启动  要学会看日志
eg:
starting namenode, logging to /export/service/hadoop-2.8.2/logs/hadoop-root-namenode-text4.out
以上输出信息是说明namenode启动过程写入了哪一个日志
假设最终namenode没有启动成功  需要打开日志查看原因

b:常用命令中还有单独启动某个进程的命令
hdfs单独启动各个进程服务
hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
hadoop-daemon.sh start secondarynamenode
yarn单独启动各个进程服务
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager


7:安装分布式
a:已有一台虚拟机基础环境配置完毕  text4
b:利用有的虚拟机复制出2台 一共3台虚拟机
复制以已及每台配置网络 参照文档即可
  b1：配置每台机器的主机名(提前规划好)(text4 text5 text6)
      text4 —— namenode  datanode  secondarynamenode  resourcemanager nodemanager
      text5 —— datanode  nodemanager
      text6 —— datanode  nodemanager
  b2：修改网卡配置(每台机器的ip地址是提前规划好)(192.168.21.134 192.168.21.138 192.168.21.139)
  b3：修改/etc/hosts文件 配置每台机器和ip地址的映射关系
c:配置3台之间可以ssh免密登录
ssh-keygen
ssh-copy-id root@机器名称
  c1:配置text4 text5 text6互相都可以ssh免密登录
  c2:选取一台虚拟机做namenode 配置它到text5  text6免密登录
  
可以在多个机器之间使用scp传输文件  如果不需要输入密码  则ssh免密配置正确
scp -r（目录整体复制） 目录/文件名称    用户名@机器名:目的机器的路径
d:确保所有机器防火墙都是关闭
e:修改每台机器的hadoop配置文件
   e1:把每个block(数据块)修改为有2个备份
   e2:把namenode相关的ip地址都修改成了主机名
f:把已有的namenode  datanode配置好的数据文件夹删除
g:在namenode节点 执行namenode格式化  hdfs namenode -format
h:在namenode执行start-dfs.sh  启动hdfs
使用jps查看每台机器的进程规划


8:namenode datanode 数据目录结构讲解
namenode：
   存放数据目录位置   /data/hadoop/dfs/name
   
datanode:
   存放数据目录位置   /data/hadoop/dfs/data
   实际上传到datanote中的文件数据都是保存在finalized目录下  
   eg:从linux 往hdfs上传一个文件  a0001.data
   因为配置的block副本是2分  所以3台datanode节点中只有text4  text5有数据  
   经验证和原有的上传文件内容一致  就以2个副本的方式保证了数据的完整性
   
   
   eg:从linux往hdfs上传一个大于128m的文件hadoop-2.8.2.tar.gz(240m)
   因为它大于128m（128m是hdfs中默认的一个block的大小）  所以这个压缩包被分成2个block上传
   每个block还是2个备份文件
   
   hdfs dfs -put 待上传的文件名称 要上传的hdfs的目的地路径
   
secondarynamenode:
   存放数据目录位置   /data/hadoop/tmp/dfs/namesecondary
   
start-all.sh
启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack
stop-all.sh
停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack
start-dfs.sh
启动Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
stop-dfs.sh
停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
hadoop-daemons.sh start namenode
单独启动NameNode守护进程
hadoop-daemons.sh stop namenode
单独停止NameNode守护进程
hadoop-daemons.sh start datanode
单独启动DataNode守护进程
hadoop-daemons.sh stop datanode
单独停止DataNode守护进程
hadoop-daemons.sh start secondarynamenode
单独启动SecondaryNameNode守护进程
hadoop-daemons.sh stop secondarynamenode
单独停止SecondaryNameNode守护进程
start-mapred.sh
启动Hadoop MapReduce守护进程JobTracker和TaskTracker
stop-mapred.sh
停止Hadoop MapReduce守护进程JobTracker和TaskTracker
hadoop-daemons.sh start jobtracker
单独启动JobTracker守护进程
hadoop-daemons.sh stop jobtracker
单独停止JobTracker守护进程
hadoop-daemons.sh start tasktracker
单独启动TaskTracker守护进程
hadoop-daemons.sh stop tasktracker
单独启动TaskTracker守护进程

sc文件：hdfs dfs -put aa.data /logs






io  nio  aio思想


b:编写hdfs java客户端程序
   b1:建立开发工程
      建立maven工程
          在pom文件中引入开发hdfs客户端需要的jar包
          <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-client</artifactId>
                <version>2.8.2</version>
            </dependency>
      建立普通的java工程
           引入jar包  目前只是开发hdfs的java客户端  只引入hadoop安装包下share目录中common和hdfs jar包即可
           
    b2:规划包结构
    b3:编写demo测试类
        创建一个配置信息封装对象(客户端处理hdfs  编写mr  处理hive  处理hase都是需要配置信息)
        创建一个文件系统的客户端对象   方便处理文件数据
        对文件的增删改查的java api接口使用
        对某个指定目录下所有文件或者目录基本信息的查看


    hdfs复习点:
    1:hdfs就是一个文件系统  在操作系统之上。
    通常操作系统针对hdfs叫做本地
    
    2:hdfs的重要组成部分
    namenode:存储元数据
       元数据中数据都有什么?
       a:某个文件的某个block存储在哪个datanode上
       b:每个datanode资源使用情况
       c:每个文件的属性 修改时间等等信息
    datanode:
    真正存储文件数据
    所以一个hdfs没有namenode或者namenode出问题则不能再使用
    但是如果是datanode出问题  只可能是数据部分丢失  而不是hdfs不能使用
    secondary namenode  namenode datanode  关系
    https://www.cnblogs.com/chenyaling/p/5521464.html
    3:基本的理论知识
    13:49 2019/3/1413:49 2019/3/14https://blog.csdn.net/lvtula/article/details/82354989
    a:hdfs中namenode  datanode  secondarynamenode 某些主要目录或者文件的作用
https://blog.csdn.net/baiye_xing/article/details/76268495
    namenode:edits fsimage version
    datanode:finalized version blc文件每个都有一个meta文件
    secondarynamenode:edits fsimage
    b:namenode中edits和fsimage的作用以及其和内存的相互关系
    c:namenode和secondarynamenode的工作机制
    d:hdfs写流程
      hdfs读流程
      
    4:hdfs shell
      
    5:java api操作hdfs





HA hadoop集群搭建步骤:
1:对集群每一台机器需要安装什么服务进行规划。
text4：zk  nn  dn  zkfc  jn   nm  rm
text5: zk  nn  dn  zkfc  jn   nm  rm
text6: zk      dn        jn   nm


2:准备每台机器的基本环境
  a:3台机器之间需要免密登录
  b:每台机器必须安装好jdk 8.0以上
  c:集群每台机器之间时间同步
     c1:设定每台机器的正确时区
        timedatectl set-timezone Asia/Shanghai
        timedatectl set-local-rtc 1
        date
     c2:选择集群中一台机器为主 master  让其它机器和这台机器完成时间同步
     使用rdate完成集群之间时间同步
     具体操作请参见保存的时间同步页面说明
     
3:修改hadoop集群的配置文件
按照样例配置文件修改即可
4:启动集群过程(安装过程的启动)
   a：启动zk
   b: 启动jn  
   hadoop-daemon.sh start journalnode
   c:格式化nn (选取text4)
   d:格式化zkfc
   hdfs zkfc -formatZK
   e:把text4的nn结构复制到text5
      先在text4启动nn
      在text5执行 hdfs namenode bootstrapstandby
      如果出现此时在text5并没有能成功复制text4的nn的目录机构
      则直接可以从text4复制到text5  完成2台nn之间的复制
    f:启动集群
      zk启动
      zkfc启动
      start-dfs.sh
      start-yarn.sh(如果那个rm没有启动 直接可以使用守护进程)




1：什么是hadoop?
hadoop是解决大数据问题的一整套技术方案

2：hadoop的组成?
核心框架
分布式文件系统
分布式计算框架
分布式资源分配框架
hadoop对象存储
机器计算

3：hadoop 云计算 大数据  微服务  人工智能关系
参见word学习文档

4：大数据项目的通常结构
采集数据
数据分析统计
数据展示


hadoop-env.sh  配置java环境
core-site.xml  hadoop核心配置
hdfs-site.xml  hdfs核心配置
mapred-site.xml  mr的核心配置
yarn-site.xml  yarn的核心配置

namenode：
   存放数据目录位置   /data/hadoop/dfs/name
   
   namenode的数据文件:
       namenode保存的是整个hdfs的元数据
       eg:
       上传文件的所属  大小  修改日期
       以及文件每一个block所在哪个datanode对应关系都是namenode元数据保存的
       
       edtis:保存的是最近的日志记录(namenode接收到的命令以及解析)
       fsimage:保存的是namenode内存信息的镜像
       seen_txid:集群状态的恢复标识
   
 
  

步骤解析1：  
上传
1、根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在
2、namenode返回是否可以上传
3、client请求第一个 block该传输到哪些datanode服务器上
4、namenode返回3个datanode服务器ABC
5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端
6、client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答
7、当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。
   
   
   
详细步骤解析2： 
下载
1、跟namenode通信查询元数据，找到文件块所在的datanode服务器
2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流
3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）
4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件




HA hadoop集群搭建步骤:
1:对集群每一台机器需要安装什么服务进行规划。
text4：zk  nn  dn  zkfc  jn   nm  rm
text5: zk  nn  dn  zkfc  jn   nm  rm
text6: zk      dn        jn   nm


2:准备每台机器的基本环境
  a:3台机器之间需要免密登录
  b:每台机器必须安装好jdk 8.0以上
  c:集群每台机器之间时间同步
     c1:设定每台机器的正确时区
        timedatectl set-timezone Asia/Shanghai
        timedatectl set-local-rtc 1
        date
     c2:选择集群中一台机器为主 master  让其它机器和这台机器完成时间同步
     使用rdate完成集群之间时间同步
     具体操作请参见保存的时间同步页面说明
     
3:修改hadoop集群的配置文件
按照样例配置文件修改即可
4:启动集群过程(安装过程的启动)
   a：启动zk
   b: 启动jn  
   hadoop-daemon.sh start journalnode
   c:格式化nn (选取text4)
   d:格式化zkfc
   hdfs zkfc -formatZK
   e:把text4的nn结构复制到text5
      先在text4启动nn
      在text5执行 hdfs namenode bootstrapstandby
      如果出现此时在text5并没有能成功复制text4的nn的目录机构
      则直接可以从text4复制到text5  完成2台nn之间的复制
    f:启动集群
      zk启动
      zkfc启动
      start-dfs.sh
      start-yarn.sh(如果那个rm没有启动 直接可以使用守护进程)





Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务
A、zookeeper是为别的分布式程序服务的
B、Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务）
C、Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……
D、虽然说可以提供各种服务，但是zookeeper在底层其实只提供了两个功能：
管理(存储，读取)用户程序提交的数据；
并为用户程序提供数据节点监听服务；


1、Znode有两种类型：
短暂（ephemeral）（断开连接自己删除）
持久（persistent）（断开连接不删除）
2、Znode有四种形式的目录节点（默认是persistent ）
PERSISTENT
PERSISTENT_SEQUENTIAL（持久序列/test0000000019 ）
EPHEMERAL
EPHEMERAL_SEQUENTIAL
3、创建znode时设置顺序标识，znode名称后会附加一个值，顺序号是一个单调递增的计数器，由父节点维护
4、在分布式系统中，顺序号可以被用于为所有的事件进行全局排序，这样客户端可以通过顺序号推断事件的顺序


1、Zookeeper：一个leader，多个follower组成的集群
2、全局数据一致：每个server保存一份相同的数据副本，client无论连接到哪个server，数据都是一致的
3、分布式读写，更新请求转发，由leader实施
4、更新请求顺序进行，来自同一个client的更新请求按其发送顺序依次执行
5、数据更新原子性，一次数据更新要么成功，要么失败
6、实时性，在一定时间范围内，client能读到最新数据

4.2.    zookeeper数据结构
1、层次化的目录结构，命名符合常规文件系统规范(见下图)
2、每个节点在zookeeper中叫做znode,并且其有一个唯一的路径标识
3、节点Znode可以包含数据和子节点（但是EPHEMERAL类型的节点不能有子节点，下一页详细讲解）
4、客户端应用可以在节点上设置监视器（后续详细讲解）    


yarn的流程：1：客户端向yarn发送请求，开始运行job
2：resourcemanager反馈信息，把切片资源在hdfs的存放目录发送给客户端
3：客户端调用fileinputformat的getsplits方法完成数据切片计算
4：客户端把切片资源上传到yarn指定的hdfs目录下
5：通知yarn资源已上传，请分配mrappmaster开始执行任务
6：yarn吧客户端待执行的任务放入任务队列
7：resourcemanager从某个namemodemanager选择一台机器准备运行环境（根据充足的空间判定）
8：制定后 mappermaster从指定位置获取任务资源（job.split jar job.xml）
9：mappermaster从job.spilit中确认需要运行多少maptask，想yarn的rm申请运行资源
10resourcemanager给mrappmaster反馈可用的运行maptask的资源
11mrappmaster根据yarn提供的资源开始运行maptask
12：当maptask运行完毕，mrappmaster会知道
13：重复申请资源的步骤  开始运行reducetask
14当reducetask运行完毕  回收mappmaster的占用资源

yarn只是一个分布式资源分配系统，核心是resourcemanager和nodemanager
yarn只负责资源分配，不负责xuanfayunsuan   

sheff运行流程
map()输出结果->内存(环形缓冲区,当内存大小达到指定数值,如80%,开始溢写到本地磁盘)
溢写之前,进行了分区partition操作,分区的目的在于数据的reduce指向,分区后进行二次排序,第一次是对partitions进行排序,
第二次对各个partition中的数据进行排序,之后如果设置了combine,就会执行类似reduce的合并操作,还可以再进行压缩,
因为reduce在拷贝文件时消耗的资源与文件大小成正比
内存在达到一定比例时,开始溢写到磁盘上
当文件数据达到一定大小时,本地磁盘上会有很多溢写文件,需要再进行合并merge成一个文件
reduce拷贝copy这些文件,然后进行归并排序(再次merge),合并为一个文件作为reduce的输入数据



wordcount流程：
计算在某个目录下有n多份文件，每个文件中有n多个单词，计算每个单词出现的个数
1：yarn的resourcemanager会反馈给客户端吧切片信息存放到那个目录下，然后客户端通过调用fileinputformat的getsplits进行切片机算，得到3样数据（
a：切片的描述信息jobsplit b：计算所有单词个数的jar包 c：把这次计算任务job的配置信息放入文件中的job。xml
）
2：放置后会通知yarn分配mappermaster任务，会挑选一台nodemanager机器作为mrappmaster
3：mrappmaster会根据job的描述信息  根据job。split确定需要几个 maptaskxiang yarn申请计算资源，
4：yarn反馈给mrappmaster明确的可用的计算资源

5：mrappmaster根据yarn提供的资源开始运行maptask
6：maptask从hdfs中依据job。spilt的描述的数据从hdfs 复制到本地的server，调用wordcount程序完成计算
（计算：maptask运行map方法，map方法接受的是文本中的每一行的偏移量， v是每次map方法执行时读取的一行单词）
7：map阶段执行完后在执行reduce阶段，  reduce完成对map阶段输出的解过进行合并操作
reducetask的数量是程序员根据需求制定，如果不指定是1
8：reduce完成后会输出问结果文件


1yarn的resourcemanager会反馈给客户端切片信息放置的目录，然后客户端通过调用fileinputformat的getsplits进行切片机算，得到三杨树局，
（a切片的描述信息b机损所有单词的jar包c将job的藐视信息放入job。xml）
2客户端放置后通知yarn分配mrappmaster执行任务，yarn会挑选一台namenodemanager作为mrappmaster
3mrappmaster会从指定位置下获取资源，根据job。splits计算需要多少个maptask，并向yarn申请及资源
4yarn反馈资源，mrappmaster给句yarn提供的资源开始运行maptask
5maptask从hdfs中依据job。split的描述的数据从hdfs复制到本地的server，调用wordcount完成计算






1.hadoop运行原理 
MapReduce 
HDFS 分布式文件系统（HDFS客户端的读写流程） 
写： 
客户端接收用户数据，并缓存到本地 
当缓存足够一个HDFS大小的时候 
客户端同NameNode通讯注册一个新的块 
注册成功后 NameNode给客户端返回一个DateNode的列表 
客户端向列表中的第一个DateNode写入块 
收到所有的DateNode确认信息后，客户端删除本地缓存 
客户端继续发送下一个块 
重复以上步骤 所有数据发送完成后，写操作完成 
读： 
客户端与NameNode通讯获取文件的块位置信息，包括块的所有冗余备份的位置信息：DateNode列表 
客户端获取文件位置信息后直接同有文件块的DateNode通讯，读取文件 
如果第一个DateNode无法连接，客户端将自动联系下一个DateNode 
如果块数据的校验值出错，则客户端需要向NameNode报告，并自动联系下一个DateNode

客户端的hadoop环境：与集群的hadoop包一样 
集群入口：core-site.xml、fs.default.name 
缓存块大小：fs.block.size 
存多少份：fs.replication

2.mapreduce的原理

mapreduce的原理：一个MapReduce框架由一个单独的master JobTracker和集群节点每一个slave TaskTracker共同组成。
master负责调度构成一个作业的所有任务，在这些slave上，master监控它们的执行，并且重新执行已经失败的任务。
而slave仅负责执行由maste指派的任务。

3.Mapreduce数据倾斜是什么意思？怎么处理? 
Mapreduce数据倾斜是指我们在分片的时候导不同分片上的数据不均，导致这些分片在并行处理的时候，有的分片执行事件过长，
有的执行时间过短，导致总的执行时间过长的一种现象，通常是由：1.map端的key值过多或者有空值；
2.业务本身的特性；3.某些sql就有数据倾斜；4.建表的时候考虑不周等原因造成的。 
处理：*   a:增加reducetask的数量
 *   b:在不改变整体统计结果的前提下，可以修改key的设定方式
 *   c:在做关联时，尽量避免reducetask端的join 可以使用maptask端的join


4.combiner的作用，使用时机？ 
Combiner其实也是一种reduce操作，是map运算的后续操作，在map后续对于相同key值做一个简单合并，减小后续的reduce的计算压力。

 数据量小的时候，且输入的结果不会影响到reduce输入的结果，且不做平均值的时候，用基于map端之后shuffle端之前的reduce操作。
1
5.MapReduce–如何设置Reducer的个数 
1.在代码中通过：JobConf.setNumReduceTasks(Int numOfReduceTasks)方法设置reducer的个数； 
2.在hive中：set mapred.reduce.tasks； 
3.reducer的最优个数与集群中可用的reducer的任务槽数相关，一般设置比总槽数微少一些的reducer数量；Hadoop文档中推荐了两个公式： 
0.95*NUMBER_OF_NODES*mapred.tasktracker.reduce.tasks.maximum 
1.75*NUMBER_OF_NODES*mapred.tasktracker.reduce.tasks.maximum 
备注：NUMBER_OF_NODES是集群中的计算节点个数； 
mapred.tasktracker.reduce.tasks.maximum：每个节点所分配的reducer任务槽的个数；

6.MR的过程： 
input —–>spilt—–>map—–>combiner—–>shuffer—> partition—–>reduce—–>output 
spilt :对数据进行split分片处理，产生K1值和V1值，传给map 
map: 数据整理，把数据整理成K2和V2, 
combiner:如果map输出内容比较多，reduce计算比较慢，我们可以加个combiner 
map端的本地化reduce，减少map输出; 
shuffer:相同的数据放到一个分区 
partiton:如果reduce不是一个，shuffler做一个分区，将相同的K值，分到一个区； 
排序方式：hash方式； 
reduce：shuffer分区结束后交给reduce进行计算，形成K3 V 3 
output: 将reduce处理完的 K3和V3交给output输出； 
a. 客户端编写好mapreduce程序，提交job到jobtracker； 
b. Jobtracker进行检查操作，确定输出目录是否存在，存在抛出错误； 
c. Jobtracker根据输入计算输入分片input split、配置job的资源、初始化作业、分配任务； 
d. 每个input split创建一个map任务，tasktracker执行编写好的map函数； 
e. Combiner阶段是可选的，它是一个本地化的reduce操作，合并重复key的值； 
f. Shuffle一开始就是map做输出操作，并对结果进行排序，内存使用达到阀值就会spill，把溢出文件写磁盘，写磁盘前有个排序操作，map输出全部做完后，
会合并溢出文件，这个过程中还有个Partitioner操作，一个partitioner对应一个reduce作业，reduce开启复制线程，复制对应的map输出文件，复制时候reduce还会进行排序操作和合并文件操作 
g. 传输完成，执行编写好的reduce函数，结果保存到hdfs上。

7.MR怎么处理小文件： 
1.输入过程合并处理：1.在linux 10000个文件上传到HDFS时候，用脚本形成二进制文件流上传，上传的过程中就合并成了一个文件。 
2.如果在hdfs中有大量小文件，首先进行清洗，把10000个小文件清洗成一个文件或者几个文件，写个map(1.前提10000小文件格式相同，
2.不会有太多的小文件 一千万个小文件，首先会在操作系统上传时就处理完了，但是要是问可以说，分批做，每一万个存储到一个目录中，对一个目录进行map清洗）)，其次，进行reduce计算 
清洗会产生数据倾斜: 很多小文件是数据倾斜(解决方法）：2.1.基于map端的离散方法；2.2.combiner; 
//hdfs为什么怕很多小文件：因为很多小文件的话也会占用namenode目录树的空间，一般一个文件的元数据会占到150字节；
而NameNode是要接收集群中所有的DataNode的心跳信息，来确定元数据的信息变化的，当小文件一旦过多，namenode的元数据读取就会变慢。
（在HDFS中，namenode将文件系统中的元数据存储在内存中，因此，HDFS所能存储的文件数量会受到namenode内存的限制）

8.如何从编程的角度讲解MR的过程 
对数据进行底层默认分片把数据解析成k1/v1形式传给map； 
Map对k1/v1进行截取、运算等操作生成k2/v2传给reduce； 
Reduce对相同key的值进行计算，生成最终结果k3/v3输出

9.MR中有没有只有Map的 
有，只对数据进行分片，解析成key/value形式后，直接输出结果不进行reduce端的去重和数组化的。 
eg：比如说我把所有的经过split（map）形成的元素都放到context的key做标签就不会用到reduce。

10.Map输出端的组成部份 
Combiner、shuffle、partitioner

11.如何用MR实现join 
1) reduce side join（在reduce端做join操作） 
在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签 （tag）,
比如：tag=0表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不同文件中的数据打标签。 
在reduce阶段，reduce函数获取key相同的来自File1和File2文件的value list， 然后对于同一个key，对File1和File2中的数据进行join（笛卡尔乘积）。即：reduce阶段进行实际的连接操作。 
2) map side join（在map端做join操作） 
之所以存在reduce side join，是因为在map阶段不能获取所有需要的join字段，即：同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的，因为shuffle阶段要进行大量的数据传输。 
Map side join是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。这样，我们可以将小表复制多份，
让每个map task内存中存在一份（比如存放到hash table中），然后只扫描大表：对于大表中的每一条记录key/value，在hash table中查找是否有相同的key的记录，
如果有，则连接后输出即可。为了支持文件的复制，Hadoop提供了一个类DistributedCache，使用该类的方法如下： 
（1）用户使用静态方法DistributedCache.addCacheFile()指定要复制的文件，它的参数是文件的URI（如果是 HDFS上的文件，可以这样：
hdfs://namenode:9000/home/XXX/file，其中9000是自己配置的NameNode端口 号）。JobTracker在作业启动之前会获取这个URI列表，并将相应的文件拷贝到各个TaskTracker的本地磁盘上。 
（2）用户使用 DistributedCache.getLocalCacheFiles()方法获取文件目录，并使用标准的文件读写API读取相应的文件。

DistributedCache方法：（DistributedCache 是一个提供给Map/Reduce框架的工具，用来缓存文件（text, archives, jars and so on）文件的默认访问协议为(hdfs://). 
DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前。 
文件在每个Job中只会被拷贝一次，缓存的归档文件会被在Slave节点中解压缩。） 
符号链接 
每个存储在HDFS中的文件被放到缓存中后都可以通过一个符号链接使用。 
URI hdfs://namenode/test/input/file1#myfile 你可以在程序中直接使用myfile来访问 file1这个文件。 myfile是一个符号链接文件。

12.MAP如何排序 
在map端一共经历两次的排序： 
当map函数产生输出时，会首先写入内存的环形缓冲区，当达到设定的阈值，在刷写磁盘之前，
后台线程会将缓冲区的数据划分成相应的分区。在每个分区中，后台线程按键进行内排序，在Map任务完成之前，
磁盘上存在多个已经分好区，并排好序的、大小和缓冲区一样的溢写文件，
这时溢写文件将被合并成一个已分区且已排序的输出文件。
由于溢写文件已经经过第一次排序，所以合并分区文件时只需要再做一次排序就可使输出文件整体有序。

13.什么是inputsplit 
InputSplit是MapReduce对文件进行处理和运算的输入单位，只是一个逻辑概念，每个InputSplit并没有对文件实际的切割
，只是记录了要处理的数据的位置（包括文件的path和hosts）和长度（由start和length决定）。

14.MR中使用了哪些接口？（或者是抽象类） 
FileinputFormat、Mapper、Reducer、FileoutputFormat、Combiner、Partitioner等
--------------------- 
作者：QianShiK 
来源：CSDN 
原文：https://blog.csdn.net/QianShiK/article/details/81480854 
版权声明：本文为博主原创文章，转载请附上博文链接！


这个业务中map输出value包含日志数据中每一行的上行流量  下行流量  
 * 因为一次要输出3个值  所以我们通常都是编写一个自定义的类型
 * 
 * 自定义map reducer的输出值类型?
 * a:需要编写一个java类封装每一行日志数据中的上行流量和下行流量
 * b:还需要在a中封装根据上行流量和下行流量计算总流量
 * c:因为a中的java类做的是map的输出值类型  所以它需要符合hadoop io类型
 *   LongWritable Text IntWritable都实现了WritableComparable接口
 *   反推就是想编写hadoop io类型就需要实现WritableComparable接口
 *   
 *   WritableComparable接口又包括了
 *   Writable接口(write,readFields两个方法) 这个接口是负责这个对象的序列化和反序列化
 *   Comparable接口(compareTo一个方法) 这个接口是负责对象比较大小/排序使用的
 *   所以两个接口中Writable接口才是标识是否属于hadoop io的类型
 *   
 *   又以为map的输出值不需要排序  只需要序列化  所以我们在这需求需要编写的map输出自定义类型只
 *   需要实现Writable接口即可


切片怎么切的：切片的数量不是越大或者越小写好，而是要根据每次计算的实际数据凉，自定义优化的切片大小来控制切片的数量
比如有一共300m，前128m以一个切片，如果129到300m的存储空间小可以直接是一个切片

NIO
1:什么是NIO？
NIO是基于通道和缓存的非阻塞IO。

2:IO 和 NIO的区别?
  a:通道在IO中只是一个便于理解的虚拟概念  而在NIO中通道是一个实际的概念
  b:在IO中最底层的传输数据是字节   而在NIO中最小的传输都是缓存
  c:在IO中 虚拟的通道直接会和数据接触     在NIO中通道直接面对的不是数据  而是缓存
  d:在IO中某一个通道通常都是单向的   在NIO中通道是双向的
  e:IO和NIO针对数据传输内存使用的方式不同
  
  IO是面向流的  NIO是面向缓存的
  
3：NIO中的缓存
在NIO中传输数据  都是把数据先放入某个缓存中  再在某个通道中 按照缓存传输
在java中原有针对NIO的开发包 java.nio.*

在java.nio包下直接都是可以使用的缓存类:
ByteBuffer 
CharBuffer 
DoubleBuffer 
FloatBuffer 
IntBuffer 
LongBuffer 
MappedByteBuffer 
ShortBuffer 


4:直接缓冲区和非直接缓冲区
   a：系统内存(系统内核内存)  和  JVM内存(程序内存的区别)
   b:IO是把数据先传入JVM内存   再从JVM内存复制到系统内存    组后从系统内存写入目的硬盘
     NIO是把数据可以先传入硬盘内存区   再从硬盘内存区直接写入目的硬盘
     
 buffer.allocate方法创建的缓冲区是在非直接缓冲区申请的内存
 buffer.allocateDirect一旦使用  就是在直接缓冲区申请的内存
 
5：通道
通道是为了替代cpu完成io操作   从而提升cpu的利用率
posted @ 2019-04-06 18:12 lilixia 阅读(184) 评论(0) 编辑收藏举报
刷新页面返回顶部
lilixia

haoop笔记

公告