摘要: 网页噪声去除可以看作是一个分类问题:把一个网页片断分为”有用信息“和”噪声“。在有大量训练样本的情况下可以使用SVM进行分类。一种直接的想法把HTML转换成DOM树,对每个节点计算链接文字比率,如果高于一定的阈值,就认为它不是正文,而是页眉、页脚、广告等其他信息。元素节点与风格节点图1.两个网页的DOM结构图2.合并之后的网站风格树在网站风格树(Site Style Tree,SST)中定义两类节点:风格节点和元素节点。风格节点由2部分组成(ES,n)ES是风格节点中所包含的元素节点的序列。图2中虚线框里的都是风格节点。n代表拥有该风格的网页数量。对于风格节点TABLE-IMG-TABLE其n 阅读全文
posted @ 2012-09-10 21:21 高性能golang 阅读(1239) 评论(0) 推荐(0) 编辑