摘要: 1、聚类算法的目的是采集数据,然后从中找出不同的群组。2、Universal Feed Parser可以方便地解析RSS订阅源,即从RSS或Atom订阅源中得到标题、链接和文章的内容。3、皮尔逊相关度其实判断的是两组数据与某条直线的拟合程度,当两者完全匹配时,计算结果为1.0,当两者毫无关系时,计算结果为0.0.4、分级聚类分级聚类的结果会产生一棵树:分级聚类虽然会返回一棵形象直观的树,但这种方法有两个缺点。在没有额外指定的情况下,树形视图不会真正将数据拆分成不同的组,而且该算法的计算量惊人。因为我们必须计算每两个数据项之间的关系,并且在合并项之后这些关系还得再计算,所以在处理大规模的数据集时 阅读全文
posted @ 2013-04-23 19:11 elar 阅读(1064) 评论(0) 推荐(0) 编辑