摘要: 1、MapReduce运行慢的原因 1、计算机性能 CPU、内存、磁盘健康、网络 2、I/O操作优化 数据倾斜 Map和reduce数设置不合理 reduce等待过久 小文件过多 大量的不可分块的超大文件 spill次数过多 merge次数过多 2、MapReduce优化方法 1、数据输入 1、合并 阅读全文
posted @ 2021-09-15 16:43 tonggang_bigdata 阅读(65) 评论(0) 推荐(1) 编辑
摘要: 1、概述 Yarn是一个资源调度平台,负责为运算程序提供服务器预算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序相当于运行于操作系统之上的应用程序 2、概念 1、Yarn并不清楚用户提交的程序的运行机制 2、Yarn只提供运算资源的调度(用户程序向Yarn申请资源,Yarn就负 阅读全文
posted @ 2021-09-15 16:42 tonggang_bigdata 阅读(124) 评论(0) 推荐(1) 编辑
摘要: 1、MapReduce入门 1、MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上 2 阅读全文
posted @ 2021-09-15 16:39 tonggang_bigdata 阅读(368) 评论(0) 推荐(1) 编辑
摘要: HDFS概述 1、HDFS概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,他是分布式的,有很多服务器联合起来实现器功能 HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,不适合做网盘的应用 2、HDFS优缺点 优点 1、高容错性 1、数据 阅读全文
posted @ 2021-09-15 16:35 tonggang_bigdata 阅读(320) 评论(0) 推荐(1) 编辑
摘要: Hadoop的优缺点 Hadoop的优点 1、高可用性:Hadoop底层维护多个数据副本,如果Hadoop某个计算元素或存储出现故障,也不会导致数据丢失 2、高扩展性:在集群间分配任务数据,可方便扩展数以千记的节点 3、高效性:在MapReduce的思想下,Hadoop是并行工作,以加快任务处理的速 阅读全文
posted @ 2021-09-15 16:32 tonggang_bigdata 阅读(255) 评论(0) 推荐(1) 编辑
摘要: 1、概述 kafka是一个分布式、分区的、多副本的、多订阅者的消息发布订阅系统(分布式MQ系统),可以用于搜索日志,监控日志,访问日志等 kafka对消息保存是根据Topic进行归类,kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是prod 阅读全文
posted @ 2021-09-15 15:28 tonggang_bigdata 阅读(156) 评论(0) 推荐(1) 编辑