摘要:
一、Hadoop架构 Hadoop1.0版本两个核心:HDFS+MapReduce Hadoop2.0版本,引入了Yarn。核心:HDFS+Yarn+Mapreduce Yarn是资源调度框架。能够细粒度的管理和调度任务。此外,还能够支持其他的计算框架,比如spark等。 二、HDFS NameNo 阅读全文
摘要:
一、JVM生命周期 JVM伴随Java程序的开始而开始,程序的结束而停止。一个Java程序会开启一个JVM进程,一台计算机上可以运行多个程序,也就可以运行多个JVM进程。 JVM将线程分为两种:守护线程和普通线程。守护线程是JVM自己使用的线程,比如垃圾回收(GC)。普通线程一般是Java程序的线程 阅读全文
摘要:
一、GC (Garbage Collection) 垃圾回收机制是由垃圾回收器Garbage Collection来实现的。GC是后台的守护进程,它的特别之处是它是一个低优先级进程。但是可以根据内存的使用情况动态的调整他的优先级,因此,它是内存中低到一定程度时,才会自动运行,从而实现对内存的回收,这 阅读全文
摘要:
一、Spark运行流程 1、Driver 端提交任务,向Master 申请资源2、Master 与Work 进行RPC 通信,让Work启动Executor3、Executor 启动会主动连接Drive ,通过Drive->Master->Work-Executor 从而得到Driver 在哪里4、 阅读全文
摘要:
‘+’连接字符串性能要低于.join。 字符串是不可变对象。+连接字符串的时候,每执行一次都会申请一块新的内存,然后复制上一个+操作的结果和本次操作的右操作符到这块内存空间,因此用+连接字符串的时候会涉及好几次内存申请和复制。 而join在连接字符串的时候,会先计算需要多大的内存存放结果,然后一次性 阅读全文