[Hadoop in China 2011] 人人网:基于Hadoop的SNS统计和聚类推荐

http://storage.it168.com/a2011/1203/1283/000001283190.shtml

 

据人人网的工程师介绍,人人网现在一共2.2亿用户,平均每个用户有大约190个好友,月均40亿的照片访问量。尽管相比于中国最大的即时通讯公司 腾讯,其用户量还有一定差距,但人人网却具有举足轻重的优势。例如有一成的付费用户,平均每天有五成用户使用人人网,并且八成用户在人人网留下了真实资 料。

人人网:基于Hadoop的SNS统计和聚类推荐
人人网高级技术经理白伯纯

   人人网的白伯纯工程师认为,现在的互联网已经发展到了web 2.0时代,其与web 1.0相比,最大不同在于,每个用户都具有唯一标识,而这将给人人网带来巨大的机遇。用户每天都在产生内容,如果能够对其内容进行分析处理,并推送相应的 内容给他,那么就能对用户产生黏性。

人人网:基于Hadoop的SNS统计和聚类推荐

  上图显示的是人人网结构化数据产生的拓扑图,其中的每个点代表一个用户,用户与用户之间通过内容联系起来。

人人网:基于Hadoop的SNS统计和聚类推荐

  用户产生的内容会通过用户的转发而维系起来,而在这些用户中,通常有一些用户的内容会受到其他大量用户的肯定。而人人网要做的就是通过对内容的分析计算,找出这个“意见领袖”。上图中所示的红点即为“意见领袖”。

人人网:基于Hadoop的SNS统计和聚类推荐

  不同群体的用户可以通过内容维系起来。

人人网:基于Hadoop的SNS统计和聚类推荐

  最后,人人网的工程师给我们分析了人人网统计平台和聚类推荐的架构图,这跟我们介绍了Facebook公司的实时海量数据处理平台有共通之处。据透露,人人网的这个平台一共有200台服务器,采用的是Hadoop 0.21.0版本,每天大概要处理4000以上的任务,经常使用的数据量为700TB,其总共的数据量约为1.2PB,其中涉及的工具包括Hive、HBase以及Streaming。在另外的一个30台服务器组成的集群中,采用的是Hadoop 0.20.3版本,在这个集群中,只使用了HBase。

人人网:基于Hadoop的SNS统计和聚类推荐

  人人网整个统计平台的体系架构如上图所示。因为各个部门工程师对于各种技术的熟练程度不一,所以形成了以BI、Hive和M/R三种统计图形的统计效果,而人人网的各个子平台也呈现出以一种离散状态,但这些都通过Hadoop这个平台又集中地整合到一起。

posted @ 2011-12-05 09:55  Jonson Li  阅读(293)  评论(0编辑  收藏  举报