摘要: 为什么会将Page Rank放在hadoop学习笔记里,是因为hadoop课程第一周就重点提到了Google当年三大论文(GFS, Map-Reduce和Big Table)以及hadoop思想的来源,并提到了page rank与Map-reduce解决方案下的PR算法,关于如何应用分布式计算来处理上万亿网页的Page rank的Map-reduce思想现在还没有搞清楚,在这之前,颇费了些周章去理解page rank的基本算法。有几篇文章讲述得非常清楚,(更是觉得数学是趋势所需,没有好的数学包括线性/高数/离散等很多路径将走不通)说实话,培训课件中关于Page Rank算法的讲解实在是太抽象了 阅读全文
posted @ 2013-05-08 23:59 Elaine Shi 阅读(4734) 评论(4) 推荐(0) 编辑
摘要: 本篇讲了在Ubuntu下安装hadoop0.20.2完全分布式集群的过程 阅读全文
posted @ 2013-05-08 23:18 Elaine Shi 阅读(69553) 评论(9) 推荐(2) 编辑