01 2010 档案

BadRank
摘要:BadRank是通过spam种子来发现更多的spam页面的一种方法。该方法基于的假设是:指向spam页面的页面通常也是spam页面(TrustRank假设的逆否)。将WEB的所有链接反向,得到反向的WEB图。人工选择一些spam页面种子,在pagerank中的初始向量d中,这些种子对应的分量置1,其余为0。然后对d做一下规一化处理。最后在反向图上,利用该d跑偏向性的pagerank算法,得到的pa... 阅读全文

posted @ 2010-01-31 07:40 小橋流水 阅读(273) 评论(0) 推荐(0) 编辑

TrustRank
摘要:TrustRank是combatwebspam中最经典的方法之一,其他文章都与其进行比较。该方法基于的假设是:好的叶面很少指向spam页面。具体做法是选择一些好的页面(goodseeds),在初始向量中d,这些好的种子页面置1,其余置0。最后再对d进行一下规一化处理。然后利用该d计算偏向性的PageRank值,即为TrustRank值。该值越高说明该页面越值得信赖,是spam的概率越低。 阅读全文

posted @ 2010-01-29 08:37 小橋流水 阅读(245) 评论(0) 推荐(0) 编辑

python实现的链表栈
摘要:Stack class EmptyStackException(Exception): pass class Element: def __init__(self, value, next): self.value = value self.next = next class Stack: def __init__(self): ... 阅读全文

posted @ 2010-01-17 10:40 小橋流水 阅读(193) 评论(0) 推荐(0) 编辑

导航

统计

点击右上角即可分享
微信分享提示