摘要:
1. 背景 在Hadoop 2.0.0 之前,namenode 一直是单节点运行,存在单点故障。若是在namenode 节点出现问题,则会导致整个hdfs 集群均不可用。直到namenode进程恢复,或是在另一备用节点上启动namenode进程。 HDFS 的高可用(high availabilit 阅读全文
摘要:
1. TextInputFortmat TextInputFormat是默认的InputFormat。每条记录是一行输入。Key是LongWritable类型,存储该行在整个文件中的字节偏移量(不是行数),值是这行的内容,为一个Text对象。 例如输入文件为: grunt> cat test2 12 阅读全文
摘要:
1. Mapper 与 Reducer 数量 对于一个默认的MapReduce Job 来说,map任务的数量等于输入文件被划分成的分块数,这个取决于输入文件的大小以及文件块的大小(如果此文件在 HDFS中)。但是对于 reduce的任务,并不会自动决定reducer数目的大小,若未指定,则默认为1 阅读全文
摘要:
1. OutputCommitters MapReduce使用一个提交协议来确保作业(job)和任务(task)都完全成功或失败。这个通过 OutputCommiter来实现。 新版本 MapReduce API中,OutputCommitter 由OutputFormat 通过getOutputC 阅读全文
摘要:
1. 神经元模型 在神经网络中,最基本的单元为神经元。在生物的角度上来看,神经元互相连接,在神经元处于“兴奋“状态时,会向其相连的神经元传递化学物质。其中处于”兴奋“的条件为:神经元的电位达到某个阈值。 类似的,在神经网络模型中,一个基本的神经元模型为: 1. 神经元模型 在神经网络中,最基本的单元 阅读全文
摘要:
从 Hive 刚推出到现在,得益于社区对它的不断贡献,使得 Hive执行 query 效率显著提升。其中比较有代表性的功能如 Tez (将多个 job整合为一个DAG job)以及 CBO(Cost-based-optimization)。 Hive 在 2.0 版本以后推出了一个新特性名为 LLA 阅读全文
摘要:
1. 启动Kafka Server bin/kafka-server-start.sh config/server.properties & 2. 创建一个新topic bin/kafka-topics.sh --create --zookeeper xxxx --replication-facto 阅读全文
摘要:
RegionServer Splitting 实现 HBase 中的写请求由 Region Server 处理,这些数据首先存储在 memstore (RegionServer 里的一个存储系统)里。一旦 memstore 满了后,它的内容会被写到磁盘,在磁盘上以文件的形式存储(HFile),这个事 阅读全文
摘要:
GC算法:实现 上面我们介绍了GC算法中的核心概念,接下来我们看一下JVM里的具体实现。首先必须了解的一个重要的事实是:对于大部分的JVM来说,两种不同的GC算法是必须的,一个是清理Young Generation的算法,另一种是清理Old Generation的算法。 在JVM里有各种各样的这种内 阅读全文
摘要:
GC算法:基础 在介绍GC算法在实际场景中的实现之前,我们先定义一些必要的术语,以及GC算法的基本准则。具体的细节会因收集器的不同而稍有区别,但是基本上来说,所有的收集器会关注以下两个方面: 在所有的收集器内部,第一步实现的均是:遍历出所有存活的对象。由标记(Marking)进程完成。 标记所有可达 阅读全文