2012年12月15日
摘要: 网页解析,即程序自动分析网页内容、获取信息,从而进一步处理信息。网页解析是实现网络爬虫中不可缺少而且十分重要的一环,由于本人经验也很有限,我仅就我们团队开发基于关键词匹配和模板匹配的主题爬虫的经验谈谈如何实现网页解析。首先,必须说在最前的是我们使用的工具——htmlparser简要地说,htmlparser包提供方便、简洁的处理html文件的方法,它将html页面中的标签按树形结构解析成一个一个结点,一种类型的结点对应一个类,通过调用其方法可以轻松地访问标签中的内容。我所使用的是htmlparser2.0,也就是最新版本。强烈推荐。好,进入正题。对于主题爬虫,它的功能就是将与主题相关的网页下载 阅读全文
posted @ 2012-12-15 14:54 百年coding 阅读(49248) 评论(19) 推荐(5) 编辑