代码改变世界

安装关系型数据库MySQL 安装大数据处理框架Hadoop

2019-05-06 12:12  科ke  阅读(345)  评论(0编辑  收藏  举报

4. 简述Hadoop平台的起源、发展历史与应用现状。

列举发展过程中重要的事件、主要版本、主要厂商;

 

Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。Cloudera(英语:Cloudera, Inc.)是一家位于美国的软件公司,向企业客户提供基于Apache Hadoop的软件、支持、服务以及培训。Cloudera的开源Apache Hadoop发行版,亦即(Cloudera Distribution including Apache Hadoop,CDH),面向Hadoop企业级部署。Cloudera称,其一半以上的工程产出捐赠给了各个基于Apache许可与Hadoop紧密相连的开源项目(Apache Hive、Apache Avro、Apache HBase等等)。Cloudera还是Apache软件基金会的赞助商。

Hortonworks(英语:Hortonworks, Inc.)是一家位于美国加州帕拉奥图的商业计算机软件公司,专注于Apache Hadoop的开发和支持。Apache Hadoop是一种框架,能分布式处理跨计算机集群的海量数据。Hortonworks是一家由雅虎和基准资本出资2300万美金于2011年6月创建的独立公司,其员工为开源软件项目Apache Hadoop贡献代码。 2011年从雅虎剥离。Hortonworks的名称来自于《Horton Hears a Who!》一书中的角色Horton the Elephant。当前,艾瑞克Baldeschweiler和Rob比尔登分别担任首席执行官和首席运营官。Rob之前供职于SpringSource。该公司的其他投资者还有包括Index Ventures。

MapR公司是美国加州的圣何塞市的一个企业管理软件公司,主要专注于可用性和数据安全优化和开发、销售Apache Hadoop的衍生软件,对Apache Hadoop主要贡献有:HBase、Pig (编程语言)、Apache Hive以及Apache ZooKeeper。MapR的Apache Hadoop发行版的要求提供完整的数据保护、无单点故障,这大大的提高了其性能与易用性。MAPR被亚马逊云服务选择为亚马逊弹性云EC2的升级版本。

Pivotal公司是由EMC和VMware联合成立的一家新公司。Pivotal希望为新一代的应用提供一个原生的基础,建立在具有领导力的云和网络公司不断转型的IT特性之上。Pivotal的使命是推行这些创新,提供给企业IT架构师和独立软件提供商。Pivotal发布了自身的Apache Hadoop发行版——Pivotal HD。Pivotal HD对Apache Hadoop进行了全面的“改造”,同其他一些Hadoop发行版(Cloudera、Intel等)相比,其最大的优势就是能够与Greenplum数据库进行整合,而不仅仅是在Hadoop中运行SQL这么简单

IBM大家应该是耳熟能详,作为全球最大的信息技术和业务解决方案公司,拥有全球雇员 30多万人,业务遍及160多个国家和地区。IBM InfoSphere是IBM推出的大数据平台,平台提供了数据整合、数据仓库、主数据管理、大数据和信息治理等解决方案。

星环信息科技(上海)有限公司是目前国内极少数掌握企业级大数据Hadoop和Spark核心技术的高科技公司,从事大数据时代核心平台数据库软件的研发与服务。公司产品Transwarp Data Hub (TDH)的整体架构及功能特性比肩硅谷同行,产品性能在业界处于领先水平。TDH是基于Hadoop和Spark的分布式内存分析引擎和实时在线大规模计算分析平台,相比开源Hadoop版本有10x~100x倍性能提升,可处理GB到PB级别的数据。

红象云腾系统技术有限公司成立于2013年,致力于将大数据(Hadoop、Spark、Storm等)分布式技术带入更多中国企业,开展有大数据相关的基础软件平台、应用、解决方案、大数据培训等业务。红象云腾的核心产品RedHadoop Enterprise CRH3,定位是一体化大数据平台,以此为基础软件平台层,他们将持续开发应用层软件。

 

 

国内外Hadoop应用的典型案例。

IBM

IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括:Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并行工作量调度,并发布了自己的Hadoop发行版及大数据解决方案。

Last.Fm

Last.Fm主要用于图表计算、专利申报、日志分析、A/B测试、数据集合并等,也使用Hadoop对超过百万的曲目进行大规模的音频特征分析。

节点超过100台机器,集群节点配置双四核XeonL5520@2.27GHzL5630@2.13GHz,24GB内存,8TB(4×2TB)存储。

LinkedIn

LinkedIn有多种硬件配置的Hadoop集群,主要集群配置如下:

  • 800节点集群,基于Westmere的惠普SL170X与2×4的核心,24GB内存,6×2TBSATA。

  • 1900节点集群,基于Westmere的超微-HX8DTT,与2×6的核心,24GB内存,6×2TBSATA。

  • 1400节点集群,基于SandyBridge超微与2×6的核心,32GB内存,6×2TBSATA。

使用的软件如下:

  • 操作系统使用RHEL6.3。

  • JDK使用SUNJDK1.6.0_32。

  • Apache的Hadoop0.20.2的补丁和ApacheHadoop的1.0.4补丁。

  • Azkaban和Azkaban用于作业调度。

  • Hive、Avro、Kafka等。

华为

华为公司也是Hadoop主要做出贡献的公司之一,排在Google和Cisco的前面,华为对Hadoop的HA方案,以及HBase领域有深入研究,并已经向业界推出了自己的基于Hadoop的大数据解决方案。

中国移动

中国移动于2010年5月正式推出大云BigCloud1.0,集群节点达到了1024。中国移动的大云基于Hadoop的MapReduce实现了分布式计算,并利用了HDFS来实现分布式存储,并开发了基于Hadoop的数据仓库系统HugeTable,并行数据挖掘工具集BC-PDM,以及并行数据抽取转化BC-ETL,对象存储系统BC-ONestd等系统,并开源了自己的BC-Hadoop版本。

中国移动主要在电信领域应用Hadoop,其规划的应用领域包括:

  • 经分KPI集中运算。

  • 经分系统ETL/DM。

  • 结算系统。

  • 信令系统。

  • 云计算资源池系统。

  • 物联网应用系统。

  • E-mail。

  • IDC服务等。

 

 

 

5. 下次上课之前,必须成功完成Hadoop的安装与配置。

上截图。

 1.安装MySql

2.windows 与 虚拟机互传文件

3.安装Hadoop