09 2020 档案

摘要:1.yarn的介绍 YARN(Yet Anthor Resource Negotiator),是Hadoop 的子项目,为分离Hadoop2.0资源管理和计算组件而引入。负责资源管理分配。yarn具有通用性,支持其他的分布式计算模式。 支持:mapreduce、tez、hbase等等 2.yarn的 阅读全文
posted @ 2020-09-30 11:32 _蒲公英_ 阅读(450) 评论(0) 推荐(0) 编辑
摘要:简单介绍: Shuffle发生在map输出到reduce输入的过程,Shuffle翻译过来是“洗牌”,顾名思义该过程涉及数据的重新分配,主要分为map任务输出数组分区,排序,规约写入本地磁盘,reduce任务拉取文件排序。 Map端: map端输出时,先将数据写入内存中的环形缓冲区,默认大小为100 阅读全文
posted @ 2020-09-28 15:56 _蒲公英_ 阅读(450) 评论(0) 推荐(0) 编辑
摘要:Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,如果其大小超过一定的阈值,则写道磁盘上,否则直接放到内存中; Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多; Sort阶段:与Me 阅读全文
posted @ 2020-09-27 19:12 _蒲公英_ 阅读(305) 评论(0) 推荐(0) 编辑
摘要:read阶段:maptask通过用户编写的RecordReader,从输入InputSplit中解析出一个个k,v对; map阶段:该节点主要是将解析出的k,v交给用户编写map()函数处理,并产生新的k,v; collect阶段:在用户编写map函数中,当数据处理完成后,一般调用OutputCol 阅读全文
posted @ 2020-09-27 16:44 _蒲公英_ 阅读(352) 评论(0) 推荐(0) 编辑
摘要:1.mapreduce的定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架; MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个Hadoop集群上; 2.mapreduce的核心思 阅读全文
posted @ 2020-09-26 16:28 _蒲公英_ 阅读(824) 评论(0) 推荐(0) 编辑
摘要:1.大量小文件影响 NameNode存储着文件系统的元数据,每个文件、目录、块大概有150字节的元数据,因此文件数量的限制也由NameNode内存大小决定,如果小文件过多则会造成NameNode的压力过大,且hdfs能存储的数据量也会变小 2.HAR文件方案 本质启动mr程序,需要启动yarn 用法 阅读全文
posted @ 2020-09-23 14:40 _蒲公英_ 阅读(369) 评论(0) 推荐(0) 编辑
摘要:1.NameNode与secondaryNameNode解析 NameNode主要负责集群中的元数据信息管理,而且元数据信息进场需要随机访问,因为元数据信息必高效的检索,那么保证NameNode快速检索呢?如何保证元数据的持久安全呢? 为了元数据信息的快速检索,那么我们就必须将元数据存放在内存当中, 阅读全文
posted @ 2020-09-23 00:06 _蒲公英_ 阅读(536) 评论(0) 推荐(0) 编辑
摘要:1.JVM虚拟机内存组成介绍 a)JVM内存划分为堆内存和非堆内存,堆内存分为年轻代(YoungGen)、老年代(OldGen),非堆内存就有一个永久代(PermGen) b)年轻代分为生成区(Eden)和生存区(Survivor),Survivor有FromSpace和ToSpace组成。Eden 阅读全文
posted @ 2020-09-22 16:42 _蒲公英_ 阅读(137) 评论(0) 推荐(0) 编辑
摘要:1.jvm基本介绍 JVM是Java Virtual Machine(java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。 jvm是直接与操作系统进行交互的,与操作系统交互的结构如下: jvm是直接与操作系统进行交互 阅读全文
posted @ 2020-09-22 10:34 _蒲公英_ 阅读(464) 评论(0) 推荐(0) 编辑