网络爬虫速成指南(二)网页解析(基于算法)

此类算法用来抽取文章的正文。

这里介绍两种方式: 将html加载未dom树,计算文字连接比 将html作为文本,计算出行块分布



性能比较:

1000个网页:
  行块分布函数:29秒
  dom数文字连接比:66秒
分析:加载为dom树会很费时间。
 

 

posted on 2014-11-04 12:01  雨渐渐  阅读(297)  评论(0编辑  收藏  举报

导航