第二次大数据作业:学习Hadoop

Q1:了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

A:

Q2:Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

A:

  • HBase™:可扩展的分布式数据库,支持大型表的结构化数据存储。
  • Hive™:一种数据仓库基础结构,可提供数据汇总和即席查询。
  • ZooKeeper™:针对分布式应用程序的高性能协调服务。

Q3:官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。

A:

1.注意事项:Hadoop是作为源代码tarball和相应的二进制tarball发布的,以方便使用。下载文件是通过镜像站点分发的,应使用GPG或SHA-512检查是否被篡改。

2.

要使用GPG验证Hadoop版本:

  1. 从镜像站点下载发行版hadoop-XYZ-src.tar.gz 
  2. 从Apache下载签名文件hadoop-XYZ-src.tar.gz.asc 
  3. 下载Hadoop Keys文件。
  4. gpg –导入密钥
  5. gpg –verify hadoop-XYZ-src.tar.gz.asc

要使用SHA-512快速检查:

  1. 从镜像站点下载发行版hadoop-XYZ-src.tar.gz 
  2. 从Apache下载校验和hadoop-XYZ-src.tar.gz.sha512或hadoop-XYZ-src.tar.gz.mds 
  3. shasum -a 512 hadoop-XYZ-src.tar.gz

3.hadoop的运行环境应该是在linux环境。如果想在windows环境下安装和运行hadoop,一般有两种方式:一种是VM的方式linux操作系统,这样可以实现全linux环境的hadoop运行;另一种方式安装cygwin模拟linux环境,该方法相对比较简单方便。

Q4:评估华为hadoop发行版本的特点与可用性。

A:

(1)FusionInsight HD组件中的6大特色

01统一的SQL接口

华为统一的SQL接口,可以支持各种组件进行统一查询,而不需要把数据从一个组件迁移到另一个组件。

02FusionInsight SparkSQL

SparkSQL概念并非华为提出,但华为为社区做出了很多贡献,自己的产品能力更强,例如华为主导向Spark SQL贡献的CPU优化器,使得稳定性和高性能比社区的开源的SQL更强。

03完全自研的SQL引擎Elk

让华为的SQL引擎更接近数据库甚至超过数据库,用户能够得到跟数据库一样甚至超过数据库交互体验效果。

04Apach

CarbonData是华为主导的一个社区开展项目,参与者有国内众多互联网公司和大型企业,也有国外IT企业,其特点是对上层的应用无感知,提升了数据分析、数据查询的性能。

05多级租户管理功能

FusionInsight提供的多级租户管理功能来匹配企业的组织架构,也就是说,可以有这种公司级的租户和管理员,有部门级的综合管理员,还有子部门租户和管理员,在给用户设置权限、设置资源配合有更方便的对应。

06对异构设备支持。

FusionInsight提供了对异构设备支持,既支持高低配的设备在同一个大集群里,又支持开发应用可以指定某些应用运行在不同的机器上。

除此之外,华为FusionInsight还具备资源的灵活配置、多租户的能力、分级存储、超大集群、滚动升级、异构磁盘集群热点数据均衡、Flink流数据引擎、可视化的集群管理与运维、可信产品、可信开发流程等十大优势,是一个帮助用户以最低的成本解决最复杂问题的可信平台。

(2)可用性:

 

中国60%的TOP 10金融、保险、银行,全球Top50运营商中的25%都用了华为的大数据平台;中国的平安城市建设有30%的客户选择了华为。华为在全球的项目、合作伙伴相当可观。迄今为止,FusionInsight HD已经交付了700多个项目,产生了300多个合作伙伴和客户;这些项目覆盖到金融、公共安全、交通、政务、电信、电力、石油等各个行业。

 

posted @ 2020-09-18 11:37  starrysky~ocean  阅读(180)  评论(0编辑  收藏  举报