随笔 - 19  文章 - 0  评论 - 0  阅读 - 3557

大数据概述

  大数据是IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将比历史上的任何时期都要多、都要快。

 

大数据架构图

 

 

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。

 

1.HDFS(分布式文件系统)

HDFS是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。

2.YARN(资源调度和管理框架)

YARN 是负责集群资源调度管理的组件。

3.MapReduce(分布式计算框架)

MapReduce是分布式并行编程模型,用于大规模数据集的并行计算。

4.Hive(数据仓库)

Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。

5.Pig(数据流处理)

Pig是数据分析平台,侧重数据查询和分析,而不是对数据进行修改和删除等。需要把真正的查询转换成相应的MapReduce作业

6.Mahout(数据挖掘库)

Mahout用于机器学习和数据分析。

7.Hbase(分布式列存数据库)

HBase 是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。

8.Zookeeper(分布式协作服务)

Zookeeper是协调服务。主要解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。

Hadoop的许多组件依赖于Zookeeper,它运行在计算机集群上面,用于管理Hadoop操作。

9.Flume(日志收集工具)

Flume 是 一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统。

Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方的能力。

10.Sqoop(数据库ETL)

Sqoop主要用来在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性。

11.Ambari

Ambari是配置,监控和管理hadoop的平台。

2.对比Hadoop与Spark的优缺点。

  Hadoop Spark
优点

1.具有按位存储和处理数据能力的高可靠性

2.通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性。

3.能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性。

4.能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性。

1.运算速度快

2.使用方便,支持多语言,本地调试很方便

3.丰富的操作算子

4.支持的场景多

5.生态完善、社区活跃,文档很全

缺点

1.不适用于低延迟数据访问

2.不能高效存储大量小文件

3.不支持多用户写入并任意修改文件

1.流式计算不咋地,功能不太全

2.资源消耗较高

 

3.如何实现Hadoop与Spark的统一部署?

由于Hadoop生态系统中的一些组件所实现的功能,目前还是无法由Spark取代的,比如,Storm可以实现毫秒级响应的流计算,但是,Spark则无法做到毫秒级响应。另一方面,企业中已经有许多现有的应用,都是基于现有的Hadoop组件开发的,完全转移到Spark上需要一定的成本。因此,在许多企业实际应用中,Hadoop和Spark的统一部署是一种比较现实合理的选择。

由于Hadoop MapReduce、HBase、Storm和Spark等,都可以运行在资源管理框架YARN之上,因此,可以在YARN之上进行统一部署。这些不同的计算框架统一运行在YARN中,可以带来如下好处:

1.计算资源按需伸缩;

2.不用负载应用混搭,集群利用率高;

3.共享底层存储,避免数据跨集群迁移。

 

posted on   云往前面飘  阅读(319)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示