http://web2.0focus.com/?p=44
所谓关联RSS, 就是和某个RSS内容相关的一个或多个RSS。在RSS订阅时,获得与之相关联的RSS,既节省了用户寻找RSS的时间,也扩展了阅读器订阅RSS的范围。
这种方法类似于我们在搜索引擎上做基于关键词的搜索。通常,我们输入某个关键词后,搜索引擎在输出搜索结果的同时,还推荐了相关的关键词。在Delicious上查找TAG时,也会给我们相关的TAG。上述的关联关键词或者关联TAG通常是比较准确的。我们同样可以利用上述关联的方法来做RSS的推荐。
一般来说,我们需要一个强大的RSS数据库,它最好是一个封闭的系统,比如一个RSS阅读系统,有着可以用于统计的用户数据。
我们做关联RSS的立足点是,一个用户订阅的RSS一般来说是兴趣集中的。以某一个RSS为出发点,我们获得所有订阅了该RSS的用户,并统计所有用户针对该RSS的相关订阅(更准确地,是该RSS所属分类的所有RSS,以用户所设置的分类为标准),通俗的描述就是“订阅了该RSS的用户,还在此分类中订阅了…”。
如上述方法统计的RSS/RSS数量分布结果为高斯分布,获得的统计数量较多的RSS即为相关RSS。在用户订阅RSS时,可以列举一定数量的RSS推荐给用户。
另外一种获得关联RSS的方法是RSS搜索引擎处理自己的数据,获得某RSS的关联RSS。这需要RSS搜索引擎(而不是Blog Search)采集海量的RSS数据。
搜索引擎所做的第一步是获得RSS数据,分析RSS数据。一般来说,带有RSS条目DESCRIPTION的RSS足以反映RSS的特点,甚至仅仅含有RSS条目TITLE的RSS也是可用的。通过分析(中文RSS需要分词),获得RSS的带有权重的关键词。上述处理过程中,如果有足够的资源,可以进一步获得RSS所指的文章的内容做进一步分析。
第二步是RSS数据的预处理过程,即通过RSS关键词的相似性分析,获得一个正则化(Normalized)的RSS-RSS相似性数值,最后获得某RSS的最相近的RSS列表。这个处理过程
同样需要耗费相当大的资源,所以以采用某些RSS作为种子(Seed)RSS处理,可以节省计算时间。所幸的是,RSS相似性分析对实时性要求不太强烈。分析一次关联RSS后,“有效期”可以持续很长时间。
对于Blog用户,OKRSS则采用了分析Blog用户页面的方法获得关联RSS,此方法假定的前提是Blog用户和他所提及的RSS是关系比较密切的。这种方法对于那些Blog上链接了RSS的用户比较容易获得关联RSS,但是对于只链接了其他用户Blog网址的用户,则需要借助于OKRSS采集的海量RSS数据库。此方法首先是利用RSS做RSS - Blog用户主页对照表,然后采集分析用户日志,获得可能的URL,把URL映射回RSS,以获得RSS的关联RSS。
所谓关联RSS, 就是和某个RSS内容相关的一个或多个RSS。在RSS订阅时,获得与之相关联的RSS,既节省了用户寻找RSS的时间,也扩展了阅读器订阅RSS的范围。
这种方法类似于我们在搜索引擎上做基于关键词的搜索。通常,我们输入某个关键词后,搜索引擎在输出搜索结果的同时,还推荐了相关的关键词。在Delicious上查找TAG时,也会给我们相关的TAG。上述的关联关键词或者关联TAG通常是比较准确的。我们同样可以利用上述关联的方法来做RSS的推荐。
一般来说,我们需要一个强大的RSS数据库,它最好是一个封闭的系统,比如一个RSS阅读系统,有着可以用于统计的用户数据。
我们做关联RSS的立足点是,一个用户订阅的RSS一般来说是兴趣集中的。以某一个RSS为出发点,我们获得所有订阅了该RSS的用户,并统计所有用户针对该RSS的相关订阅(更准确地,是该RSS所属分类的所有RSS,以用户所设置的分类为标准),通俗的描述就是“订阅了该RSS的用户,还在此分类中订阅了…”。
如上述方法统计的RSS/RSS数量分布结果为高斯分布,获得的统计数量较多的RSS即为相关RSS。在用户订阅RSS时,可以列举一定数量的RSS推荐给用户。
另外一种获得关联RSS的方法是RSS搜索引擎处理自己的数据,获得某RSS的关联RSS。这需要RSS搜索引擎(而不是Blog Search)采集海量的RSS数据。
搜索引擎所做的第一步是获得RSS数据,分析RSS数据。一般来说,带有RSS条目DESCRIPTION的RSS足以反映RSS的特点,甚至仅仅含有RSS条目TITLE的RSS也是可用的。通过分析(中文RSS需要分词),获得RSS的带有权重的关键词。上述处理过程中,如果有足够的资源,可以进一步获得RSS所指的文章的内容做进一步分析。
第二步是RSS数据的预处理过程,即通过RSS关键词的相似性分析,获得一个正则化(Normalized)的RSS-RSS相似性数值,最后获得某RSS的最相近的RSS列表。这个处理过程
同样需要耗费相当大的资源,所以以采用某些RSS作为种子(Seed)RSS处理,可以节省计算时间。所幸的是,RSS相似性分析对实时性要求不太强烈。分析一次关联RSS后,“有效期”可以持续很长时间。
对于Blog用户,OKRSS则采用了分析Blog用户页面的方法获得关联RSS,此方法假定的前提是Blog用户和他所提及的RSS是关系比较密切的。这种方法对于那些Blog上链接了RSS的用户比较容易获得关联RSS,但是对于只链接了其他用户Blog网址的用户,则需要借助于OKRSS采集的海量RSS数据库。此方法首先是利用RSS做RSS - Blog用户主页对照表,然后采集分析用户日志,获得可能的URL,把URL映射回RSS,以获得RSS的关联RSS。