2019 年 7月 10 日随笔档案 - 北漂屌丝

2019年7月10日

摘要： PageRank是什么 PageRank，网页排名。PageRank 计算每一个网页的PageRank值，并根据PageRank值的大小对网页的重要性进行排序。PageRank的基本思想是：对于一个网页A来说，链接到A的页面越多，且链接到A的页面的PageRank值越大，网页A的PageRank值越阅读全文

posted @ 2019-07-10 19:45 北漂屌丝阅读(260) 评论(0) 推荐(0) 编辑

mapreduce版温度分析

摘要： mapreduce版温度分析阅读全文

posted @ 2019-07-10 19:26 北漂屌丝阅读(241) 评论(0) 推荐(0) 编辑

mapreduce版wordcount

摘要： mapreduce版wordcount https://github.com/xiangyuguan/wordcount 阅读全文

posted @ 2019-07-10 19:17 北漂屌丝阅读(99) 评论(0) 推荐(0) 编辑

mapreduce排序比较器的选取

摘要：排序比较器的选取顺序： Map：取用户设置的排序比较器取key自带的比较器 Reduce：取用户设置的分组比较器取用户设置的排序比较器取key自带的比较器阅读全文

posted @ 2019-07-10 18:56 北漂屌丝阅读(178) 评论(0) 推荐(0) 编辑

YARN 工作流程

摘要： Client请求ResourceManager运行一个ApplicationMaster实例（step 1）； ResourceManager选择一个NodeManager，启动一个Container并运行ApplicationMaster实例（step 2a、step 2b）； Applicati 阅读全文

posted @ 2019-07-10 17:33 北漂屌丝阅读(166) 评论(0) 推荐(0) 编辑

HDFS 副本放置策略

摘要： 1st replica. 如果写请求方所在机器是其中一个datanode,则直接存放在本地,否则随机在集群中选择一个datanode 2nd replica. 第二个副本存放于不同第一个副本的所在的机架 3rd replica.第三个副本存放于第二个副本所在的机架,但是属于不同的节点 1st rep 阅读全文

posted @ 2019-07-10 15:55 北漂屌丝阅读(575) 评论(0) 推荐(0) 编辑

HDFS HA

摘要： NameNode HA 基于Qurom Journal Manager(QJM)解决方案,架构如下图: Active NN、Standby NN有主备之分，NN Active是主的，NN Standby备用的集群启动之后，一个namenode是active状态，来处理client与datanode 阅读全文

posted @ 2019-07-10 11:34 北漂屌丝阅读(143) 评论(0) 推荐(0) 编辑

HDFS 架构

摘要： HDFS的架构图 HDFS 采用Master/Slave的架构来存储数据，这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面分别介绍这四个组成部分 1、Client：客户端文件切分，文件上传 HDFS 的时候，C 阅读全文

posted @ 2019-07-10 11:12 北漂屌丝阅读(210) 评论(0) 推荐(0) 编辑

HDFS优缺点

摘要： HDFS优点： 1、高容错性数据自动保存多个副本。它通过增加副本的形式，提高容错性。某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制实现的。数据自动保存多个副本。它通过增加副本的形式，提高容错性。某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制实现的。 2、适合批阅读全文

posted @ 2019-07-10 10:53 北漂屌丝阅读(3468) 评论(0) 推荐(0) 编辑

beipiaodiaosi