摘要:
1.mapreduce的定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架; MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个Hadoop集群上; 2.mapreduce的核心思 阅读全文
摘要:
1.大量小文件影响 NameNode存储着文件系统的元数据,每个文件、目录、块大概有150字节的元数据,因此文件数量的限制也由NameNode内存大小决定,如果小文件过多则会造成NameNode的压力过大,且hdfs能存储的数据量也会变小 2.HAR文件方案 本质启动mr程序,需要启动yarn 用法 阅读全文
摘要:
1.NameNode与secondaryNameNode解析 NameNode主要负责集群中的元数据信息管理,而且元数据信息进场需要随机访问,因为元数据信息必高效的检索,那么保证NameNode快速检索呢?如何保证元数据的持久安全呢? 为了元数据信息的快速检索,那么我们就必须将元数据存放在内存当中, 阅读全文
摘要:
1.JVM虚拟机内存组成介绍 a)JVM内存划分为堆内存和非堆内存,堆内存分为年轻代(YoungGen)、老年代(OldGen),非堆内存就有一个永久代(PermGen) b)年轻代分为生成区(Eden)和生存区(Survivor),Survivor有FromSpace和ToSpace组成。Eden 阅读全文
摘要:
1.jvm基本介绍 JVM是Java Virtual Machine(java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。 jvm是直接与操作系统进行交互的,与操作系统交互的结构如下: jvm是直接与操作系统进行交互 阅读全文