2022-03-01 19:27阅读: 175评论: 0推荐: 0

1. 大数据概述

一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述

  • 1. HDFS(Hadoop分布式文件系统)

    Hadoop分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统(GoogleFileSystem,GFS)的开源实现。
    HDFS具有处理超大数据流式处理可以运行在廉价商用服务器上等优点。
    HDFS在设计之初就是要运行在廉价的大型服务器集群上,因此在设计上就把硬件故障作为一种常态来考虑,可以保证在部分硬件发生故障的情况下仍然能够保证文件系统的整体可用性和可靠性。

    HDFS放宽了一部分POSIX约束,从而实现以流的形式访问文件系统中的数据。
    HDFS在访问应用程序数据时,可以具有很高的吞吐率,因此对于超大数据集的应用程序而言,选择HDFS作为底层数据存储是较好的选择。

  • 2. MapReduce(分布式计算框架)

    MapReduce是针对谷歌MapReduce的开源实现。
    MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数一一Map和Reduce上,并且允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,并将其运行于廉价计算机集群上,完成海量数据的处理。通俗地说MapReduce的核心思想就是“分而治之”

  • 3. Hive(基于Hadoop的数据仓库)

    Hive是—个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理特殊查询分析存储
    Hive的学习门槛比较低,因为它提供了类似于关系数据库SQL语言的查询语言——HiveQL,可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身可以将HiveQL语句转换为MapReduce任务进行运行,而不必开发专门的MapReduce应用,因而十分适合数据仓库的统计分析。

  • 4. HBase(分布式列存数据库)

    HBase是一个提供高可靠性高性能可伸缩实时读写分布式的列式数据库,一般采用HDFS作为其底层数据存储。
    HBase是针对谷歌BigTable的开源实现,二者都采用了相同的数据模型,具有强大的非结构化数据存储能力。
    HBase与传统关系数据库的一个重要区别是,前者釆用基于列的存储,而后者采用基于行的存储。
    HBase具有良好的横向扩展能力,可以通过不断增加廉价的商用服务器来增加存储能力。

  • 5. Zookeeper(分布式协作服务)

    Zookeeper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。

  • 6. Sqoop(数据同步工具)

    Sqoop是SQL-to-Hadoop的缩写,主要用来在Hadoop和关系数据库之间交换数据的互操作性。
    通过Sqoop可以方便地将数据从MySQL、Oracle.PostgreSQL等关系数据库中导人Hadoop(可以导人HDFS、HBase或Hive),或者将数据从Hadoop导出到关系数据库,使得传统关系数据库和Hadoop之间的数据迁移变得非常方便。
    Sqoop主要通过JDBC(JavaDataBaseConnectivity湘关系数据库进行交互,理论上,支持JDBC的关系数据库都可以使Sqoop和Hadoop进行数据交互。
    Sqoop是专门为大数据集设计的,支持增量更新,可以将新记录添加到最近一次导出的数据源上,或者指定上次修改的时间戳。

  • 7. Pig(基于hadoop的数据流系统)

    Pig是一种数据流语言和运行环境,适合于使用HadooP和MapReduce平台来查询大型半结构化数据集。虽然MapReduce应用程序的编写不是十分复杂,但毕竟也是需要一定的开发经验的。
    Pig的出现大大简化了Hadoop常见的工作任务,它在MapReduce的基础上创建了更简单的过程语言抽象,为Hadoop应用程序提供了一种更加接近结构化査询语言的接口。

  • 8. Mahout(数据挖掘算法库)

    Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。
    Mahout现在已经包含了聚类,分类,推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。
    除了算法外,Mahout还包含了数据的输入/输出工具,与其他存储系统(如数据库,MongoDB或Cassandra)集成等数据挖掘支持架构。

  • 9. Flume(日志收集工具)

    Flume是Cloudera提供的一个高可用的高可靠的分布式的海量日志采集、聚合和传输的系统。
    Flume支持在日志系统中定制各类数据发送方,用于数据收集;同时,Flume提供对数据进行简单处理并写到各种数据接受方的能力。

  • 10. Ambari

    ApacheAmbari是一种基于Web的工具,支持ApacheHadoop集群的安装、部署、配置和管理
    Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop等。

二、对比Hadoop与Spark的优缺点

优点

  1. Spark确实速度很快(最多比Hadoop MapReduce快100倍)

  2. Spark还可以执行批量处理,然而它真正擅长的是处理流工作负载、交互式查询和机器学习。

  3. 相比MapReduce基于磁盘的批量处理引擎,Spark赖以成名之处是其数据实时处理功能。

  4. Spark与Hadoop及其模块兼容。实际上,在Hadoop的项目页面上,Spark就被列为是一个模块。

缺点

  1. Spark不能为我们提供完整的技术栈。它允许我们将它的功能集成到我们的Hadoop集群中并且从中获益,而不用完全脱离我们老的集群方案。

  2. Spark还不够成熟。在大数据栈中我们有很广泛的选择可以选出不同的开源产品来组合在一起形成一个单独的技术栈使用。

三、如何实现Hadoop与Spark的统一部署

  • 一方面,由于Hadoop生态系统中的一些组件所实现的功能,目前还是无法由Spark取代的,比如,Storm可以实现毫秒级响应的流计算,但是,Spark则无法做到毫秒级响应。

  • 另一方面,企业中已经有许多现有的应用,都是基于现有的Hadoop组件开发的,完全转移到Spark上需要一定的成本。因此,在许多企业实际应用中,Hadoop和Spark的统一部署是一种比较现实合理的选择。

  • 由于Hadoop MapReduce、HBase、Storm和Spark等,都可以运行在资源管理框架YARN之上,因此,可以在YARN之上进行统一部署。(如图所示)

本文作者:stu(dying)

本文链接:https://www.cnblogs.com/DingyLand/p/homework_01_.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   stu(dying)  阅读(175)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
🔑
  1. 1 Dancing with my phone (Explicit) HYBS
  2. 2 Catch (Feat. Hwa Sa) Epik High (에픽하이)
  3. 3 건물 사이에 피어난 장미 (Rose Blossom) H1-KEY
  4. 4 The Weekend 88rising,BIBI
  5. 5 天气未报 余佳运
  6. 6 和你 余佳运
  7. 7 九月底 余佳运
  8. 8 POP/STARS K/DA,Madison Beer,(G)I-DLE,Jaira Burns
  9. 9 Uh-Oh (G)I-DLE
  10. 10 For You (G)I-DLE
  11. 11 데이지(雏菊) PENTAGON
  12. 12 BAD PENTAGON
Catch (Feat. Hwa Sa) - Epik High (에픽하이)
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.

Catch (Feat. Hwa Sa) - Epik High (에픽하이)

词:Tablo/Mithra Jin

曲:Tukutz/Tablo/Will Leong/Anthony Watts

Produced by:Tukutz/Tablo/Will Leong/Anthony Watts

Vocals by:Hwa Sa/Tablo

Recorded by:Tukutz @Knowhere, Seoul

Mixed by:mr.sync @JD Studio, Seoul

Mastered by:Chris Gehringer @Sterling Sound, NYC

Executive Produced by:Epik High

发行:RYCE MUSIC GROUP 白米范(北京)文化传播有限公司

I can never lose

Whatchu haters gon do

Whatchu haters gon do

Doobi doobi do

Doobi doobi do

Doobi doobi do

I don't make the rules

You'll never catch me putting on a noose

God is real

God is real

I'm the living proof

Wishin' that we fail

Wishin' that we fail

그건 망상증

그건 망상증

Epik High new **** to make your car sound good

It's all time high

Baby I've been on one

My whole life

활짝 피어있는 동공

쉽지 않아도 해냈네

난 그저 self-made 아닌 handmade

내 손이 만든 성공

다들 본 적 없는 나의 성격 지적하네

내 MBTI는 IDGAF

한때 날 지지했대

그래 thank u very much

And **** you

I cannot complain tho

Cuz they know

자꾸 날 찔러대도

자꾸 날 찔러대도

시간만 낭비라고

'K' thanks tho

Oo oh oh

Bye bye

Bye bye

그럼 잘 지내고

Bye bye 멀리 안 나와도 돼

좀 천천히 가도

숨이 차 멈춰 서도

숨이 차 멈춰 서도

잠시 넘어져도

잠시 넘어져도

You'll never catch me

You'll never catch me

내 걱정 말고

어둠 속에서도

어둠 속에서도

I'll shine like a diamond

I'll shine like a diamond

You'll never catch me

You'll never catch me

우리는 실패를 배팅해도

시비 거는 너보다

성공할 확률이 높아

굳이 눈 가려 봤자

네 앞길만 가려

우리 발자국 밟고 뒤쫓아

내리막길 걸을 때는

구름 위로 slide

적대 시기 질투

위로 근두운 타

발 헛디뎌 바닥으로 떨어질 때도

절망 안에 춤춰 boom boom pow

날 때부터 길이 정해진 듯

See me

무대와는 어느새 20년 지기

그 어느 때보다 가벼워

어깨 위 짐이

이제서야 음악이

내 직업 아닌 취미

잊어버렸지 삶의 고단함

행복 안에 현실감이 고장 나

무심한 세월이

기억을 덮어버린대도

우린 여전히 all time high

I cannot complain tho

Cuz they know

자꾸 날 찔러대도

자꾸 날 찔러대도

시간만 낭비라고

'K' thanks tho

Oo oh oh

Bye bye

Bye bye

그럼 잘 지내고

Bye bye 멀리 안 나와도 돼

좀 천천히 가도

숨이 차 멈춰 서도

숨이 차 멈춰 서도

잠시 넘어져도

잠시 넘어져도

You'll never catch me

You'll never catch me

내 걱정 말고

어둠 속에서도

어둠 속에서도

I'll shine like a diamond

I'll shine like a diamond

You'll never catch me

You'll never catch me

Call me

When you're feelin' down

When you're feelin' down

Before u hit the ground

Before u hit the ground

I'll be there to catch you

I'll be there to catch you

Call me

When you're feelin' down

When you're feelin' down

Before u hit the ground

Before u hit the ground

I'll be there to catch you

I'll be there to catch you

Call me

When you're feelin' down

When you're feelin' down

Before u hit the ground

Before u hit the ground

I'll be there to catch you

I'll be there to catch you

Baby

When you're feelin' down

When you're feelin' down

I'll always be around

I'll always be around

To catch u when u fall

To catch u when u fall

I cannot complain tho

Cuz they know

자꾸 날 찔러대도

자꾸 날 찔러대도

시간만 낭비라고

'K' thanks tho

Oo oh oh

Bye bye

Bye bye

그럼 잘 지내고

Bye bye 멀리 안 나와도 돼

Catch

Catch

Catch