hadoop入门(二)

HDFS架构

NameNode
DataNode
Secondary NameNode

元数据存储信息示例：

上传文件到hdfs工作流程：

详解：

客户端API先请求namenode，如果这个路径存在那么返回(元数据信息)可以分配的datanode给客户端API，假设这个文件512M，hdfs设置的每块128M，客户端API将其切分为3块，向datanode写入块信息。然后每个块写完后，这时已经客户端API已经完成上传工作了，我们设置的是每个块有3个副本
此时每块还有2个副本未写入，这时由写入好的datanode将块复制给下一个datanode，再由下一个datanode复制给下一个datanode，以此类推去建立副本，如果其中有一个副本建立失败，会报告给namenode，由namenode重新分配一个datanode将副本复制过去

namenode元数据管理机制:

SecondaryNameNode合并edits和fsimage:

namenode通知SecondaryNameNode进行checkpoint操作，先产生一个新的edits.new文件，停止往旧的edits文件写数据
SecondaryNameNode把旧的edits文件和fsimage文件下载下来，在SecondaryNameNode合并edits和fsimage,做checkpoint操作，完成后
上传给namenode，替换到老的fsimage,把edits.new重命名为edits

datanode:
Datanode是文件系统的工作节点，他们根据客户端或者是namenode的调度存储和检索数据，并且定期向namenode发送他们所存储的块(block)的列表。

yarn：
ResourceManager
YARN中的资源管理器（Resource Manager）负责整个系统的资源管理和调度，并内部维护了各个应用程序的ApplictionMaster信息，NodeManager信息，资源使用信息等。提交给 yarn，yarn产生applicationmaster，产生一个运行资源的容器，指定存储结果的目录，yarn分配好资源后，启动你程序的主管进程,程序的运算逻辑yarn不管