第二次作业
1.
版本 |
对应特性 |
1.0 |
安全 |
1.1 |
从主干向后移植HDFS的许多性能改进 |
2.0 |
NameNode的HDFS HA(手动故障转移) YARN又名NextGen MapReduce HDFS联盟 性能 HDFS和YARN/MapReduce的电线兼容性(使用protobufs)
|
2.2. |
YARN-Hadoop的通用资源管理系统,允许MapReduce和其他其他数据处理框架和服务 |
2.3 |
支持HDFS中的异构存储层次结构。 |
2.4 |
支持HDFS中的访问控制列表 |
2.5 |
使用HTTP代理服务器时的身份验证改进。 |
2.6
|
Hadoop常见 |
2.7 |
此版本放弃了对JDK6运行时的支持,并且仅与JDK 7+一起使用。 |
2.8 |
共同 支持异步呼叫重试和故障转移,可在重试工作中用于异步DFS实现。 HDFS WebHDFS增强功能:在WebHDFS中集成CSRF预防过滤器,在WebHDFS中支持OAuth2,通过WebHDFS禁用/允许快照 yarn Windows中的NodeManager CPU资源监视。 允许节点标签在提交MR作业时被指定
|
3.0 |
最低要求的Java版本从Java 7增加到Java 8 支持HDFS中的擦除编码 由于擦除编码在重建期间会带来额外的开销,并且大部分执行远程读取,因此传统上已将其用于存储较冷,访问频率较低的数据。用户在部署此功能时应考虑擦除编码的网络和CPU开销。 HDFS删除编码文档中提供了更多详细信息。 YARN时间轴服务v.2 提供了YARN Timeline Service v.2 alpha 2,以便用户和开发人员可以对其进行测试并提供反馈和建议,以使其可以替代Timeline Servicev.1.x。仅应以测试能力使用。 YARN时间轴服务v.2文档中提供了更多详细信息。 Shell脚本重写 不兼容的更改记录在发行说明中,并在HADOOP-9902上进行了相关讨论。 Unix Shell指南文档中提供了更多详细信息。高级用户也将对Unix Shell API文档感到满意,该文档描述了许多新功能,尤其是与可扩展性有关的功能。 带阴影的客户罐 HADOOP-11804添加了新的hadoop-client-api和hadoop-client-runtime工件,将Hadoop的依赖项隐藏在一个jar中。这样可以避免将Hadoop的依赖项泄漏到应用程序的类路径中。 支持机会容器和分布式计划。 默认情况下,机会容器由中央RM分配,但是还添加了支持,以允许由实现为AMRMProtocol拦截器的分布式调度程序分配机会容器。
|
2.
HDFS主要有以下几个部分组成:
一.Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。
二.NameNode:Master节点,在hadoop1.X中只有一个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。对于大型的集群来讲,Hadoop1.x存在两个最大的缺陷:
三.1)对于大型的集群,namenode的内存成为瓶颈,namenode的扩展性的问题;
2)namenode的单点故障问题。
针对以上的两个缺陷,Hadoop2.x以后分别对这两个问题进行了解决。
对于缺陷1)提出了Federation namenode来解决,该方案主要是通过多个namenode来实现多个命名空间来实现namenode的横向扩张。从而减轻单个namenode内存问题。
针对缺陷2),hadoop2.X提出了实现两个namenode实现热备HA的方案来解决。其中一个是处于standby状态,一个处于active状态。
DataNode:Slave节点,存储实际的数据,汇报存储信息给NameNode。
四.Secondary NameNode:辅助NameNode,分担其工作量;定期合并fsimage和edits,推送给NameNode;紧急情况下,可辅助恢复NameNode,但Secondary NameNode并非NameNode的热备。
b. YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。
该框架是hadoop2.x以后对hadoop1.x之前JobTracker和TaskTracker模型的优化,而产生出来的,将JobTracker的资源分配和作业调度及监督分开。该框架主要有ResourceManager,Applicationmatser,nodemanager。其主要工作过程如下:
ResourceManager主要负责所有的应用程序的资源分配,
ApplicationMaster主要负责每个作业的任务调度,也就是说每一个作业对应一个ApplicationMaster。
Nodemanager是接收Resourcemanager 和ApplicationMaster的命令来实现资源的分配执行体
3.
①projects
②projects list
③hadoop
集群指定主机
、集群安装(DKM各组件安装):这里有3种安装方式 “基本安装”,“完整安装”,“自定义安装”选择自定义
可以查看各机器分配的角色
开始安装组件:我以“基本安装”方式来进行示例,其他方式类同,选择“下一步”会出现如下图的进度条。
点击登录,进入到集群监控界面,进入到集群监控界面就表示安装成功了
选择HTTP中的任意三个
验证完整性
4.
华为——FusionInsight HD(简称FI),FI是基于hadoop2.72版开发的,坚持分层,解耦,开放的原则,得益于高可靠性,在全国各地政府、运营商、金融系统有较多案例。
FI的特性为高可靠性,系统可靠性,数据可靠性,所有组件无单点故障,所有管理节点HA(high 可用),软硬件健康状态监控,跨数据中心容灾,支持硬盘热拔插,强大的组织支撑能力,服务到位,半年做一次全面巡检,它的安全性高,系统安全,认证安全,数据安全,具有可视化集群管理,易运维,能够一键式组件安装部署,有.NTP(时钟)自动配置,还有自动配置主机映射关系,能够资源分布监控和自定义监控阈值,对于日志级别动态调整并且针对元数据向导式备份管理,还能够多租户管理(资源分配,只针对计算和存储资源)和多组件UI间单点登陆。