摘要: PageRank是什么 PageRank,网页排名。PageRank 计算每一个网页的PageRank值,并根据PageRank值的大小对网页的重要性进行排序。PageRank的基本思想是:对于一个网页A来说,链接到A的页面越多,且链接到A的页面的PageRank值越大,网页A的PageRank值越 阅读全文
posted @ 2019-07-10 19:45 北漂屌丝 阅读(260) 评论(0) 推荐(0) 编辑
摘要: mapreduce版温度分析 阅读全文
posted @ 2019-07-10 19:26 北漂屌丝 阅读(241) 评论(0) 推荐(0) 编辑
摘要: mapreduce版wordcount https://github.com/xiangyuguan/wordcount 阅读全文
posted @ 2019-07-10 19:17 北漂屌丝 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 排序比较器的选取顺序: Map: 取用户设置的排序比较器 取key自带的比较器 Reduce: 取用户设置的分组比较器 取用户设置的排序比较器 取key自带的比较器 阅读全文
posted @ 2019-07-10 18:56 北漂屌丝 阅读(178) 评论(0) 推荐(0) 编辑
摘要: Client请求ResourceManager运行一个ApplicationMaster实例(step 1); ResourceManager选择一个NodeManager,启动一个Container并运行ApplicationMaster实例(step 2a、step 2b); Applicati 阅读全文
posted @ 2019-07-10 17:33 北漂屌丝 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 1st replica. 如果写请求方所在机器是其中一个datanode,则直接存放在本地,否则随机在集群中选择一个datanode 2nd replica. 第二个副本存放于不同第一个副本的所在的机架 3rd replica.第三个副本存放于第二个副本所在的机架,但是属于不同的节点 1st rep 阅读全文
posted @ 2019-07-10 15:55 北漂屌丝 阅读(575) 评论(0) 推荐(0) 编辑
摘要: NameNode HA 基于Qurom Journal Manager(QJM)解决方案,架构如下图: Active NN、Standby NN有主备之分,NN Active是主的,NN Standby备用的 集群启动之后,一个namenode是active状态,来处理client与datanode 阅读全文
posted @ 2019-07-10 11:34 北漂屌丝 阅读(143) 评论(0) 推荐(0) 编辑
摘要: HDFS的架构图 HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面分别介绍这四个组成部分 1、Client:客户端 文件切分,文件上传 HDFS 的时候,C 阅读全文
posted @ 2019-07-10 11:12 北漂屌丝 阅读(210) 评论(0) 推荐(0) 编辑
摘要: HDFS优点: 1、高容错性 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的。 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的。 2、适合批 阅读全文
posted @ 2019-07-10 10:53 北漂屌丝 阅读(3468) 评论(0) 推荐(0) 编辑