随笔分类 - Hadoop学习笔记
Yarn
摘要:Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Contai
MapReduce
摘要:将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序 MapReduce优缺点 优点 MapReduce 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理 缺点 不擅长实时计算 不擅长流式计算 不擅长DAG(有向无环图)计算(多个应用程序存在依赖关系,后一个应用程序
HDFS
摘要:HDFS的使用场景 适合一次写入,多次读出的场景,且不支持文件的修改。 HDFS优点和缺点 优点 高容错性 适合处理大数据 可构建在廉价机器上,并通过多副本机制提高可靠性 缺点 不适合低延时数据访问 无法高效的对大量小文件进行存储(小文件的寻址时间会超过读取时间,违反HDF的设计目标) 不支持并发写
haodoop数据压缩
摘要:压缩概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络宽带和磁盘空间的效率。在运行MR程序时,I/O操作,网络数据传输,Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和网络宽带是Hadoo
haodoop新特性
摘要:Hadoop2.x新特性 scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello.
haodoop概念总结
摘要:大数据部门组织结构 Hadoop的优势(4高) 高可靠性:Hadoop底层维护多个数据副本 高扩展性:在集群间分配任务数据,可方便的扩展 高效性:在MapReduce的思想下,Hadoop时并行工作的,从而加快任务处理速度 高容错性:能够自动将失败的任务重新分配 Hadoop组成(重点) hadoo
haodoop企业优化
摘要:MapReduce 跑的慢的原因 MapReduce程序效率的瓶颈在于两点 计算机性能 CPU,内存,磁盘健康,网络 I/O操作优化 数据倾斜 Map和Reduce数设置不合理 Map运行时间太长,导致Reduce等待过久 小文件太多 大量的不可且片的超大压缩文件 Spill次数过多 Merge次数
Hadoop阶段学习总结
摘要:第一部分:HDFS相关问题 一、描述一下HDFS的数据写入流程 首先由客户端想NameNode服务发起写数据请求,NameNode接收到请求后会进行基本验证,验证内容包括对请求上传的路径进行合法验证其次还要对请求的用户进行权限验证。验证没有问题后,NameNode会响应客户端允许上传。接下来客户
haodoop高可用
摘要:高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似, 但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多 HA概述 所谓HA(High Availablit